当前位置：首页 > news >正文

Hadoop单机及集群部署

news 来源：原创 2024/9/20 18:54:29

- 一、Hadoop 单机模式部署
- - 1. 环境准备
  - 2. 安装 Java
  - 3. 下载并安装 Hadoop
  - 4. 配置环境变量
  - 5. 配置 Hadoop
  - - 编辑 core-site.xml
    - 编辑 hdfs-site.xml
    - 编辑 mapred-site.xml
    - 编辑 yarn-site.xml
  - 6. 格式化 Namenode
  - 7. 启动 Hadoop 服务
  - 8. 验证 Hadoop
  - 注意事项
- 二、Hadoop 集群模式部署
- - 1. 环境准备
  - 2. 设置 SSH 免密码登录
  - 3. 下载并安装 Hadoop
  - 4. 配置 Hadoop
  - - 编辑 core-site.xml
    - 编辑 hdfs-site.xml
    - 编辑 mapred-site.xml
    - 编辑 yarn-site.xml
    - 配置 slaves 文件
  - 5. 启动 Hadoop 集群
  - 6. 验证集群状态
  - 注意事项
- 三、Hadoop 使用案例：Word Count
- - 1. 创建输入文件
  - 2. 编写 MapReduce 程序
  - 3. 编译并运行程序
- 四、使用 Python 实现 Word Count
- - 1. 环境准备
  - 2. 编写 Mapper 和 Reducer
  - - Mapper (mapper.py)
    - Reducer (reducer.py)
  - 3. 设置可执行权限
  - 4. 上传输入文件到 HDFS
  - 5. 使用 Hadoop Streaming 运行作业
  - 6. 查看结果
  - 7. Python 实现 Word Count 示例
  - 8. 注意事项
  - 9. 总结
  - 10. 查看结果
- 五、总结与注意事项
- - 常见问题
  - 优化建议

下面是关于如何在单机和集群环境中部署Hadoop的详细指南，以及部署过程中的注意事项和一个实际使用案例。我们将涵盖从基础安装到配置细节，并讨论一些常见的问题和解决方案。

一、Hadoop 单机模式部署

1. 环境准备

操作系统：Linux (推荐使用 Ubuntu 20.04 或 CentOS 7)
Java：Hadoop 需要 Java 环境，推荐使用 OpenJDK 8。
SSH：Hadoop 需要 SSH 访问，因此要确保 SSH 服务已安装并运行。

2. 安装 Java

在 Ubuntu 中：

sudo apt update
sudo apt install openjdk-8-jdk

在 CentOS 中：

sudo yum install java-1.8.0-openjdk

验证 Java 安装：

java -version

3. 下载并安装 Hadoop

访问 Hadoop 官网下载最新版本的 Hadoop。

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
mv hadoop-3.3.1 /usr/local/hadoop

4. 配置环境变量

编辑 ~/.bashrc 文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

应用更改：

source ~/.bashrc

5. 配置 Hadoop

编辑 core-site.xml

路径：$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

编辑 hdfs-site.xml

路径：$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>

编辑 mapred-site.xml

复制模板文件并编辑：

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

路径：$HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

编辑 yarn-site.xml

路径：$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

6. 格式化 Namenode

hdfs namenode -format

7. 启动 Hadoop 服务

start-dfs.sh
start-yarn.sh

8. 验证 Hadoop

访问 Hadoop Web 界面：

Namenode: http://localhost:9870
ResourceManager: http://localhost:8088

注意事项

确保 Java 环境配置正确。
确保 SSH 服务正常运行。
检查配置文件路径和参数的正确性。

二、Hadoop 集群模式部署

1. 环境准备

多台服务器，至少 3 台（1 个 NameNode，2 个 DataNode）。
网络：确保各节点之间可以互相访问。
操作系统：Linux (Ubuntu 或 CentOS)。
Java：在所有节点上安装 Java。

2. 设置 SSH 免密码登录

在主节点上生成 SSH 密钥：

ssh-keygen -t rsa

将公钥复制到所有从节点：

ssh-copy-id user@datanode1
ssh-copy-id user@datanode2

3. 下载并安装 Hadoop

在所有节点上安装 Hadoop，步骤与单机安装相同。

4. 配置 Hadoop

编辑 core-site.xml

在所有节点上配置相同的 core-site.xml：

<configuration><property><name>fs.defaultFS</name><value>hdfs://namenode:9000</value></property>
</configuration>

编辑 hdfs-site.xml

在所有节点上配置相同的 hdfs-site.xml：

<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>

编辑 mapred-site.xml

在所有节点上配置相同的 mapred-site.xml：

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

编辑 yarn-site.xml

在所有节点上配置相同的 yarn-site.xml：

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

配置 slaves 文件

在 NameNode 上，编辑 $HADOOP_HOME/etc/hadoop/slaves 文件，添加所有 DataNode 的主机名：

datanode1
datanode2

5. 启动 Hadoop 集群

在 NameNode 上执行：

start-dfs.sh
start-yarn.sh

6. 验证集群状态

访问 Namenode 和 ResourceManager 的 Web 界面，确保所有节点正常运行。

注意事项

确保所有节点的时钟同步。
确保网络配置正确，各节点之间可访问。
检查每个节点的配置文件，确保一致性。

三、Hadoop 使用案例：Word Count

1. 创建输入文件

在 HDFS 中创建一个目录，并上传一个文本文件：

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put localfile.txt /user/hadoop/input

2. 编写 MapReduce 程序

以下是一个简单的 Word Count Java 程序：

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCount {public static class TokenizerMapperextends Mapper<Object, Text, Text, IntWritable>{private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text value, Context context) throws IOException, InterruptedException {String[] tokens = value.toString().split("\\s+");for (String token : tokens) {word.set(token);context.write(word, one);}}}public static class IntSumReducerextends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {int sum = 0;for (IntWritable val : values) {sum += val.get();}result.set(sum);context.write(key, result);}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

3. 编译并运行程序

编译程序：

javac -classpath `hadoop classpath` -d wordcount_classes WordCount.java
jar -cvf wordcount.jar -C wordcount_classes/ .

运行程序：

hadoop jar wordcount.jar WordCount /user/hadoop/input /user/hadoop/output

当然可以使用 Python 来实现 Word Count 的 Hadoop MapReduce 程序。Python 提供了一个名为 Hadoop Streaming 的工具，可以通过管道方式使得我们可以使用 Python、Perl、Ruby 等语言来编写 Map 和 Reduce 函数。

下面是使用 Python 实现的 Word Count 示例。

四、使用 Python 实现 Word Count

1. 环境准备

确保你的 Hadoop 环境支持 Hadoop Streaming，可以通过以下命令查看：

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar

如果没有报错，那么你的 Hadoop 支持 Streaming。

2. 编写 Mapper 和 Reducer

Mapper (mapper.py)

Mapper 的任务是读取输入文件的每一行，将每个单词输出为一个键值对 (word, 1)。

#!/usr/bin/env pythonimport sys# 读取标准输入
for line in sys.stdin:# 去除前后空格并分割成单词words = line.strip().split()for word in words:# 输出键值对print(f"{word}\t1")

保存为 mapper.py。

Reducer (reducer.py)

Reducer 的任务是汇总 Mapper 的输出，统计每个单词出现的次数。

#!/usr/bin/env pythonimport syscurrent_word = None
current_count = 0
word = None# 从标准输入读取数据
for line in sys.stdin:# 去除前后空格并解析输入line = line.strip()word, count = line.split('\t', 1)# 将 count 转换为 inttry:count = int(count)except ValueError:continue# 检查当前单词是否与之前的单词相同if current_word == word:current_count += countelse:if current_word:# 输出当前单词的计数print(f"{current_word}\t{current_count}")current_word = wordcurrent_count = count# 输出最后一个单词的计数
if current_word == word:print(f"{current_word}\t{current_count}")

保存为 reducer.py。

3. 设置可执行权限

确保这两个 Python 脚本具有可执行权限：

chmod +x mapper.py
chmod +x reducer.py

4. 上传输入文件到 HDFS

确保 HDFS 已经运行，创建输入目录并上传数据文件：

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put localfile.txt /user/hadoop/input

5. 使用 Hadoop Streaming 运行作业

使用 Hadoop Streaming 工具运行 MapReduce 作业：

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar \-input /user/hadoop/input \-output /user/hadoop/output \-mapper mapper.py \-reducer reducer.py \-file mapper.py \-file reducer.py

参数说明：

-input：指定输入数据所在的 HDFS 目录。
-output：指定输出结果存储的 HDFS 目录。
-mapper：指定 Mapper 的执行脚本。
-reducer：指定 Reducer 的执行脚本。
-file：将本地文件发送到 Hadoop 分布式缓存中，以便在集群节点上执行。

6. 查看结果

hdfs dfs -cat /user/hadoop/output/part-00000

7. Python 实现 Word Count 示例

假设 localfile.txt 内容如下：

Hello Hadoop
Hello Python
Hello World

运行以上命令后，输出结果可能如下：

Hadoop    1
Hello     3
Python    1
World     1

8. 注意事项

输入输出路径：确保输入路径正确，输出路径不存在（Hadoop 不允许输出路径已存在）。
权限问题：检查脚本的执行权限。
Python 版本：确保 Python 版本与环境兼容。
换行符问题：确保输入文件中的换行符格式正确（Linux 使用 LF，而不是 CRLF）。

9. 总结

通过以上步骤，我们成功地使用 Python 实现了一个简单的 Hadoop Word Count 程序。Hadoop Streaming 提供了极大的灵活性，可以使用任意支持标准输入输出的编程语言来实现 MapReduce 作业。这使得开发者能够利用熟悉的编程语言进行大规模数据处理。

如果在开发过程中遇到任何问题，请确保查看 Hadoop 和 Python 的错误日志，以便更快地定位问题并进行调试。

10. 查看结果

hdfs dfs -cat /user/hadoop/output/part-r-00000

五、总结与注意事项

常见问题

SSH 问题：确保所有节点之间的 SSH 无密码访问正常。
Java 环境问题：确认所有节点上的 Java 版本一致。
Hadoop 版本问题：确保所有节点的 Hadoop 版本一致。
文件权限问题：确保 HDFS 中的文件权限正确，避免权限问题导致的作业失败。
内存和资源配置：合理配置每个节点的内存和资源分配，以提高作业执行效率。

优化建议

使用 HDFS 进行大规模数据存储，提高数据的可靠性和可用性。
合理设置副本数量，根据集群规模和业务需求进行调整。
监控集群状态，使用工具（如 Ambari、Ganglia）对 Hadoop 集群进行实时监控和管理。

通过以上步骤，您可以成功部署 Hadoop 单机和集群环境，并运行简单的 MapReduce程序进行数据处理。在实际生产环境中，还需要根据具体需求进行进一步优化和调整。

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

html--前端

前端构建工具|vite快速入门

DVWA（SQL注入）medium、high

ESXI加入VMware现有集群提示常规性错误

RabbitMQ之基于注解声明队列交换机：使用@RabbitListener实现消息监听

Java日志框架

npm、pnpm、yarn镜像源设置

深入探究Liunx服务器内存：模拟程序实际占用与缓存占用内存

深入理解 Go 语言信号量 Semaphore

数据库事务( 五 ) Spring管理事务的几道面试题

史上最详细ArduinoESP32 外部中断

python爬虫学习记录-请求模块urllib3

lvs实战项目-dr模式实现

github使用gh-pages部署vue静态网站(简单易懂)

gorm不定参数

[LeetCode] Wiggle Sort

create-react-app做的留言板

ES6 学习笔记（一）let，const和解构赋值

ES6系列（二）变量的解构赋值

JavaScript 事件——“事件类型”中“HTML5事件”的注意要点

JavaScript中的对象个人分享

java多线程

redis学习笔记(三):列表、集合、有序集合

RxJS 实现摩斯密码(Morse) 【内附脑图】

spring-boot List转Page

初探 Vue 生命周期和钩子函数

从零到一：用Phaser.js写意地开发小游戏（Chapter 3 - 加载游戏资源）

关于字符编码你应该知道的事情

缓存与缓冲

前端代码风格自动化系列（二）之Commitlint

推荐一款sublime text 3 支持JSX和es201x 代码格式化的插件

线上 python http server profile 实践

协程

软考-高级-信息系统项目管理师教程第四版【第14章-项目沟通管理-思维导图】

#if #elif #endif

$$$$GB2312-80区位编码表$$$$

（4）(4.6) Triducer

(function(){})()的分步解析

（Redis使用系列） Springboot 使用redis实现接口Api限流十

（仿QQ聊天消息列表加载）wp7 listbox 列表项逐一加载的一种实现方式，以及加入渐显动画...

(非本人原创)我们工作到底是为了什么？——HP大中华区总裁孙振耀退休感言（r4笔记第60天)...

（牛客腾讯思维编程题）编码编码分组打印下标（java 版本+ C版本）

（三）终结任务

（十二）springboot实战——SSE服务推送事件案例实现

（十三）Java springcloud B2B2C o2o多用户商城 springcloud架构 - SSO单点登录之OAuth2.0 根据token获取用户信息(4)...

(图)IntelliTrace Tools 跟踪云端程序

（原创）可支持最大高度的NestedScrollView

（转）我也是一只ＩＴ小小鸟

./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...

.NET Framework 的 bug？try-catch-when 中如果 when 语句抛出异常，程序将彻底崩溃

.NET开源全面方便的第三方登录组件集合 - MrHuo.OAuth

@Async 异步注解使用

[ IOS ] iOS-控制器View的创建和生命周期

[ vulhub漏洞复现篇 ] ECShop 2.x / 3.x SQL注入/远程执行代码漏洞 xianzhi-2017-02-82239600

[.net]官方水晶报表的使用以演示下载

目录

一、Hadoop 单机模式部署

1. 环境准备

2. 安装 Java

3. 下载并安装 Hadoop

4. 配置环境变量

5. 配置 Hadoop

编辑 core-site.xml

编辑 hdfs-site.xml

编辑 mapred-site.xml

编辑 yarn-site.xml

6. 格式化 Namenode

7. 启动 Hadoop 服务

8. 验证 Hadoop

注意事项

二、Hadoop 集群模式部署

1. 环境准备

2. 设置 SSH 免密码登录

3. 下载并安装 Hadoop

4. 配置 Hadoop

编辑 core-site.xml

编辑 hdfs-site.xml

编辑 mapred-site.xml

编辑 yarn-site.xml

配置 slaves 文件

5. 启动 Hadoop 集群

6. 验证集群状态

注意事项

三、Hadoop 使用案例：Word Count

1. 创建输入文件

2. 编写 MapReduce 程序

3. 编译并运行程序

四、使用 Python 实现 Word Count

1. 环境准备

2. 编写 Mapper 和 Reducer

Mapper (mapper.py)

Reducer (reducer.py)

3. 设置可执行权限

4. 上传输入文件到 HDFS

5. 使用 Hadoop Streaming 运行作业

6. 查看结果

7. Python 实现 Word Count 示例

8. 注意事项

9. 总结

10. 查看结果

五、总结与注意事项

常见问题

优化建议

相关文章：