当前位置: 首页 > news >正文

Hadoop单机及集群部署

目录

    • 一、Hadoop 单机模式部署
      • 1. 环境准备
      • 2. 安装 Java
      • 3. 下载并安装 Hadoop
      • 4. 配置环境变量
      • 5. 配置 Hadoop
        • 编辑 core-site.xml
        • 编辑 hdfs-site.xml
        • 编辑 mapred-site.xml
        • 编辑 yarn-site.xml
      • 6. 格式化 Namenode
      • 7. 启动 Hadoop 服务
      • 8. 验证 Hadoop
      • 注意事项
    • 二、Hadoop 集群模式部署
      • 1. 环境准备
      • 2. 设置 SSH 免密码登录
      • 3. 下载并安装 Hadoop
      • 4. 配置 Hadoop
        • 编辑 core-site.xml
        • 编辑 hdfs-site.xml
        • 编辑 mapred-site.xml
        • 编辑 yarn-site.xml
        • 配置 slaves 文件
      • 5. 启动 Hadoop 集群
      • 6. 验证集群状态
      • 注意事项
    • 三、Hadoop 使用案例:Word Count
      • 1. 创建输入文件
      • 2. 编写 MapReduce 程序
      • 3. 编译并运行程序
    • 四、使用 Python 实现 Word Count
      • 1. 环境准备
      • 2. 编写 Mapper 和 Reducer
        • Mapper (mapper.py)
        • Reducer (reducer.py)
      • 3. 设置可执行权限
      • 4. 上传输入文件到 HDFS
      • 5. 使用 Hadoop Streaming 运行作业
      • 6. 查看结果
      • 7. Python 实现 Word Count 示例
      • 8. 注意事项
      • 9. 总结
      • 10. 查看结果
    • 五、总结与注意事项
      • 常见问题
      • 优化建议

下面是关于如何在单机和集群环境中部署Hadoop的详细指南,以及部署过程中的注意事项和一个实际使用案例。我们将涵盖从基础安装到配置细节,并讨论一些常见的问题和解决方案。

一、Hadoop 单机模式部署

1. 环境准备

  • 操作系统:Linux (推荐使用 Ubuntu 20.04 或 CentOS 7)
  • Java:Hadoop 需要 Java 环境,推荐使用 OpenJDK 8。
  • SSH:Hadoop 需要 SSH 访问,因此要确保 SSH 服务已安装并运行。

2. 安装 Java

在 Ubuntu 中:

sudo apt update
sudo apt install openjdk-8-jdk

在 CentOS 中:

sudo yum install java-1.8.0-openjdk

验证 Java 安装:

java -version

3. 下载并安装 Hadoop

访问 Hadoop 官网 下载最新版本的 Hadoop。

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
mv hadoop-3.3.1 /usr/local/hadoop

4. 配置环境变量

编辑 ~/.bashrc 文件,添加以下内容:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

应用更改:

source ~/.bashrc

5. 配置 Hadoop

编辑 core-site.xml

路径:$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
编辑 hdfs-site.xml

路径:$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>
编辑 mapred-site.xml

复制模板文件并编辑:

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

路径:$HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>
编辑 yarn-site.xml

路径:$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

6. 格式化 Namenode

hdfs namenode -format

7. 启动 Hadoop 服务

start-dfs.sh
start-yarn.sh

8. 验证 Hadoop

访问 Hadoop Web 界面:

  • Namenode: http://localhost:9870
  • ResourceManager: http://localhost:8088

注意事项

  • 确保 Java 环境配置正确。
  • 确保 SSH 服务正常运行。
  • 检查配置文件路径和参数的正确性。

二、Hadoop 集群模式部署

1. 环境准备

  • 多台服务器,至少 3 台(1 个 NameNode,2 个 DataNode)。
  • 网络:确保各节点之间可以互相访问。
  • 操作系统:Linux (Ubuntu 或 CentOS)。
  • Java:在所有节点上安装 Java。

2. 设置 SSH 免密码登录

在主节点上生成 SSH 密钥:

ssh-keygen -t rsa

将公钥复制到所有从节点:

ssh-copy-id user@datanode1
ssh-copy-id user@datanode2

3. 下载并安装 Hadoop

在所有节点上安装 Hadoop,步骤与单机安装相同。

4. 配置 Hadoop

编辑 core-site.xml

在所有节点上配置相同的 core-site.xml:

<configuration><property><name>fs.defaultFS</name><value>hdfs://namenode:9000</value></property>
</configuration>
编辑 hdfs-site.xml

在所有节点上配置相同的 hdfs-site.xml:

<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>
编辑 mapred-site.xml

在所有节点上配置相同的 mapred-site.xml:

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>
编辑 yarn-site.xml

在所有节点上配置相同的 yarn-site.xml:

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>
配置 slaves 文件

在 NameNode 上,编辑 $HADOOP_HOME/etc/hadoop/slaves 文件,添加所有 DataNode 的主机名:

datanode1
datanode2

5. 启动 Hadoop 集群

在 NameNode 上执行:

start-dfs.sh
start-yarn.sh

6. 验证集群状态

访问 Namenode 和 ResourceManager 的 Web 界面,确保所有节点正常运行。

注意事项

  • 确保所有节点的时钟同步。
  • 确保网络配置正确,各节点之间可访问。
  • 检查每个节点的配置文件,确保一致性。

三、Hadoop 使用案例:Word Count

1. 创建输入文件

在 HDFS 中创建一个目录,并上传一个文本文件:

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put localfile.txt /user/hadoop/input

2. 编写 MapReduce 程序

以下是一个简单的 Word Count Java 程序:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCount {public static class TokenizerMapperextends Mapper<Object, Text, Text, IntWritable>{private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text value, Context context) throws IOException, InterruptedException {String[] tokens = value.toString().split("\\s+");for (String token : tokens) {word.set(token);context.write(word, one);}}}public static class IntSumReducerextends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {int sum = 0;for (IntWritable val : values) {sum += val.get();}result.set(sum);context.write(key, result);}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

3. 编译并运行程序

编译程序:

javac -classpath `hadoop classpath` -d wordcount_classes WordCount.java
jar -cvf wordcount.jar -C wordcount_classes/ .

运行程序:

hadoop jar wordcount.jar WordCount /user/hadoop/input /user/hadoop/output

当然可以使用 Python 来实现 Word Count 的 Hadoop MapReduce 程序。Python 提供了一个名为 Hadoop Streaming 的工具,可以通过管道方式使得我们可以使用 Python、Perl、Ruby 等语言来编写 Map 和 Reduce 函数。

下面是使用 Python 实现的 Word Count 示例。

四、使用 Python 实现 Word Count

1. 环境准备

确保你的 Hadoop 环境支持 Hadoop Streaming,可以通过以下命令查看:

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar

如果没有报错,那么你的 Hadoop 支持 Streaming。

2. 编写 Mapper 和 Reducer

Mapper (mapper.py)

Mapper 的任务是读取输入文件的每一行,将每个单词输出为一个键值对 (word, 1)

#!/usr/bin/env pythonimport sys# 读取标准输入
for line in sys.stdin:# 去除前后空格并分割成单词words = line.strip().split()for word in words:# 输出键值对print(f"{word}\t1")

保存为 mapper.py

Reducer (reducer.py)

Reducer 的任务是汇总 Mapper 的输出,统计每个单词出现的次数。

#!/usr/bin/env pythonimport syscurrent_word = None
current_count = 0
word = None# 从标准输入读取数据
for line in sys.stdin:# 去除前后空格并解析输入line = line.strip()word, count = line.split('\t', 1)# 将 count 转换为 inttry:count = int(count)except ValueError:continue# 检查当前单词是否与之前的单词相同if current_word == word:current_count += countelse:if current_word:# 输出当前单词的计数print(f"{current_word}\t{current_count}")current_word = wordcurrent_count = count# 输出最后一个单词的计数
if current_word == word:print(f"{current_word}\t{current_count}")

保存为 reducer.py

3. 设置可执行权限

确保这两个 Python 脚本具有可执行权限:

chmod +x mapper.py
chmod +x reducer.py

4. 上传输入文件到 HDFS

确保 HDFS 已经运行,创建输入目录并上传数据文件:

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put localfile.txt /user/hadoop/input

5. 使用 Hadoop Streaming 运行作业

使用 Hadoop Streaming 工具运行 MapReduce 作业:

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar \-input /user/hadoop/input \-output /user/hadoop/output \-mapper mapper.py \-reducer reducer.py \-file mapper.py \-file reducer.py

参数说明:

  • -input:指定输入数据所在的 HDFS 目录。
  • -output:指定输出结果存储的 HDFS 目录。
  • -mapper:指定 Mapper 的执行脚本。
  • -reducer:指定 Reducer 的执行脚本。
  • -file:将本地文件发送到 Hadoop 分布式缓存中,以便在集群节点上执行。

6. 查看结果

hdfs dfs -cat /user/hadoop/output/part-00000

7. Python 实现 Word Count 示例

假设 localfile.txt 内容如下:

Hello Hadoop
Hello Python
Hello World

运行以上命令后,输出结果可能如下:

Hadoop    1
Hello     3
Python    1
World     1

8. 注意事项

  1. 输入输出路径:确保输入路径正确,输出路径不存在(Hadoop 不允许输出路径已存在)。
  2. 权限问题:检查脚本的执行权限。
  3. Python 版本:确保 Python 版本与环境兼容。
  4. 换行符问题:确保输入文件中的换行符格式正确(Linux 使用 LF,而不是 CRLF)。

9. 总结

通过以上步骤,我们成功地使用 Python 实现了一个简单的 Hadoop Word Count 程序。Hadoop Streaming 提供了极大的灵活性,可以使用任意支持标准输入输出的编程语言来实现 MapReduce 作业。这使得开发者能够利用熟悉的编程语言进行大规模数据处理。

如果在开发过程中遇到任何问题,请确保查看 Hadoop 和 Python 的错误日志,以便更快地定位问题并进行调试。

10. 查看结果

hdfs dfs -cat /user/hadoop/output/part-r-00000

五、总结与注意事项

常见问题

  1. SSH 问题:确保所有节点之间的 SSH 无密码访问正常。
  2. Java 环境问题:确认所有节点上的 Java 版本一致。
  3. Hadoop 版本问题:确保所有节点的 Hadoop 版本一致。
  4. 文件权限问题:确保 HDFS 中的文件权限正确,避免权限问题导致的作业失败。
  5. 内存和资源配置:合理配置每个节点的内存和资源分配,以提高作业执行效率。

优化建议

  • 使用 HDFS 进行大规模数据存储,提高数据的可靠性和可用性。
  • 合理设置副本数量,根据集群规模和业务需求进行调整。
  • 监控集群状态,使用工具(如 Ambari、Ganglia)对 Hadoop 集群进行实时监控和管理。

通过以上步骤,您可以成功部署 Hadoop 单机和集群环境,并运行简单的 MapReduce程序进行数据处理。在实际生产环境中,还需要根据具体需求进行进一步优化和调整。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • html--前端
  • 前端构建工具|vite快速入门
  • DVWA(SQL注入)medium、high
  • ESXI加入VMware现有集群提示常规性错误
  • RabbitMQ之基于注解声明队列交换机:使用@RabbitListener实现消息监听
  • Java日志框架
  • npm、pnpm、yarn镜像源设置
  • 深入探究Liunx服务器内存:模拟程序实际占用与缓存占用内存
  • 深入理解 Go 语言信号量 Semaphore
  • 数据库事务( 五 ) Spring管理事务的几道面试题
  • 史上最详细ArduinoESP32 外部中断
  • python爬虫学习记录-请求模块urllib3
  • lvs实战项目-dr模式实现
  • github使用gh-pages部署vue静态网站(简单易懂)
  • gorm不定参数
  • [LeetCode] Wiggle Sort
  • create-react-app做的留言板
  • ES6 学习笔记(一)let,const和解构赋值
  • ES6系列(二)变量的解构赋值
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • JavaScript中的对象个人分享
  • java多线程
  • redis学习笔记(三):列表、集合、有序集合
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • spring-boot List转Page
  • 初探 Vue 生命周期和钩子函数
  • 从零到一:用Phaser.js写意地开发小游戏(Chapter 3 - 加载游戏资源)
  • 关于字符编码你应该知道的事情
  • 缓存与缓冲
  • 前端代码风格自动化系列(二)之Commitlint
  • 推荐一款sublime text 3 支持JSX和es201x 代码格式化的插件
  • 线上 python http server profile 实践
  • 协程
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • #if #elif #endif
  • $$$$GB2312-80区位编码表$$$$
  • (4)(4.6) Triducer
  • (function(){})()的分步解析
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (仿QQ聊天消息列表加载)wp7 listbox 列表项逐一加载的一种实现方式,以及加入渐显动画...
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (三)终结任务
  • (十二)springboot实战——SSE服务推送事件案例实现
  • (十三)Java springcloud B2B2C o2o多用户商城 springcloud架构 - SSO单点登录之OAuth2.0 根据token获取用户信息(4)...
  • (图)IntelliTrace Tools 跟踪云端程序
  • (原创)可支持最大高度的NestedScrollView
  • (转)我也是一只IT小小鸟
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .NET Framework 的 bug?try-catch-when 中如果 when 语句抛出异常,程序将彻底崩溃
  • .NET开源全面方便的第三方登录组件集合 - MrHuo.OAuth
  • @Async 异步注解使用
  • [ IOS ] iOS-控制器View的创建和生命周期
  • [ vulhub漏洞复现篇 ] ECShop 2.x / 3.x SQL注入/远程执行代码漏洞 xianzhi-2017-02-82239600
  • [.net]官方水晶报表的使用以演示下载