当前位置：首页 > news >正文

hadoop hive spark flink 安装

news 来源：原创 2024/5/20 20:33:23

下载地址

Index of /dist

ubuntu安装hadoop集群

准备

IP地址	主机名称
192.168.1.21	node1
192.168.1.22	node2
192.168.1.23	node3

上传

hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gz

JDK环境

node1、node2、node3三个节点

解压

tar -zxvf jdk-8u391-linux-x64.tar.gz

环境变量

vim /etc/profile.d/JDK.sh

#!/bin/bash
export JAVA_HOME=/usr/local/jdk1.8.0_391
export PATH=$PATH:$JAVA_HOME/bin

jdk生效

source /etc/profile

hosts配置

vim /etc/hosts

192.168.1.21 node1
192.168.1.22 node2
192.168.1.23 node3

创建用户hadoop

adduser hadoop

配置免密登录

node1 hadoop用户中执行

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

复制到其他节点

确保不需要输入密码

hadoop@node1:~$ ssh node1
hadoop@node1:~$ ssh node2
hadoop@node1:~$ ssh node3

解压安装包

hadoop@node1:~$ mkdir -p apps
hadoop@node1:~$ tar -xzf hadoop-3.3.5.tar.gz -C apps

配置环境变量

export JAVA_HOME=/usr/local/jdk1.8.0_391
export HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.5
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.5/etc/hadoop
export YARN_CONF_DIR=/home/hadoop/apps/hadoop-3.3.5/etc/hadoopexport PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使环境变量生效

hadoop@node1:~$ source ~/.bashrc

配置Hadoop集群

Hadoop软件安装完成后，每个节点上的Hadoop都是独立的软件，需要进行配置才能组成Hadoop集群。Hadoop的配置文件在$HADOOP_HOME/etc/hadoop目录下，主要配置文件有6个：

hadoop-env.sh主要配置Hadoop环境相关的信息，比如安装路径、配置文件路径等；
core-site.xml是Hadoop的核心配置文件，主要配置了Hadoop的NameNode的地址、Hadoop产生的文件目录等信息；
hdfs-site.xml是HDFS分布式文件系统相关的配置文件，主要配置了文件的副本数、HDFS文件系统在本地对应的目录等；
mapred-site.xml是关于MapReduce的配置文件，主要配置MapReduce在哪里运行；
yarn-site.xml是Yarn相关的配置文件，主要配置了Yarn的管理节点ResourceManager的地址、NodeManager获取数据的方式等；
workers是集群中节点列表的配置文件，只有在这个文件里面配置了的节点才会加入到Hadoop集群中，否则就是一个独立节点。
这几个配置文件如果不存在，可以通过复制配置模板的方式创建，也可以通过创建新文件的方式创建。需要保证在集群的每个节点上这6个配置保持同步，可以在每个节点单独配置，也可以在一个节点上配置完成后同步到其他节点。

hadoop-env.sh配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.4
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoop
export HADOOP_LOG_DIR=/home/hadoop/logs/hadoop

core-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://node1:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/data/hadoop/temp</value></property><property><name>hadoop.proxyuser.hadoop.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.hadoop.groups</name><value>*</value></property>
</configuration>

hdfs-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.name.dir</name><value>/home/hadoop/data/hadoop/hdfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/home/hadoop/data/hadoop/hdfs/data</value></property>
</configuration>

mapred-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/mapred-site.xml


<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value></property>
</configuration>

yarn-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>node1</value></property>
</configuration>

workers配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/workers

node1
node2
node3

复制到其他节点

在node1上配置好环境变量及配置文件，可以手动再在其他节点上完成同样的配置，或者直接将node1的文件复制到其他节点。

hadoop@node1:~$ scp -r .bashrc apps node2:~/
hadoop@node1:~$ scp -r .bashrc apps node3:~/

格式化NameNode

在启动集群前，需要对NameNode进行格式化，在node1上执行以下命令：

hadoop@node1:~$ hdfs namenode -format

启动集群

在node1上执行start-all.sh命令启动集群。

hadoop@node1:~$ jps
55936 Jps
hadoop@node1:~$ start-all.sh
WARNING: Attempting to start all Apache Hadoop daemons as hadoop in 10 seconds.
WARNING: This is not a recommended production deployment configuration.
WARNING: Use CTRL-C to abort.
Starting namenodes on [node1]
Starting datanodes
node2: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.
node3: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.
Starting secondary namenodes [node1]
WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
Starting resourcemanager
WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
Starting nodemanagers
WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
node3: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
node2: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
node1: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.
hadoop@node1:~$ jps
57329 ResourceManager
57553 NodeManager
57027 SecondaryNameNode
58165 Jps
56437 NameNode
56678 DataNode

验证Hadoop

上传一个文件到HDFS

hdfs dfs -put .bashrc /

访问HDFS

打开HDFS Web UI查看相关信息，默认端口9870。

访问YARN

打开YARN Web UI查看相关信息，默认端口8088。

相关命令

HDFS相关的命令

操作HDFS使用的命令是hdfs，命令格式为：

Usage: hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

YARN相关的命令

STL——排序算法

pytest pytest.ini 设置目录路径，不执行该目录下的case

前端框架前置学习(4) AJAX

基于Unity Editor开发一个技能编辑器可能涉及到的内容

C++设计模式：单例模式（饿汉式、懒汉式）

LangChain.js 实战系列：入门介绍

B/S架构云端SaaS服务的医院云HIS系统源码，自主研发，支持电子病历4级

LDO线性稳压器与开关电源的原理

2023年国赛高教杯数学建模E题黄河水沙监测数据分析解题全过程文档及程序

再见2023，你好2024

物联网协议Coap之Californium CoapServer解析

【产品经理】axure中继器的使用——表格增删改查分页实现

计算机基础--Linux详解

VS2013中特殊操作

py注册登录界面

2017-08-04 前端日报

Angular4 模板式表单用法以及验证

echarts的各种常用效果展示

el-input获取焦点 input输入框为空时高亮 el-input值非法时

ES6核心特性

Java知识点总结（JDBC-连接步骤及CRUD）

Python socket服务器端、客户端传送信息

vue自定义指令实现v-tap插件

大数据与云计算学习：数据分析（二）

更好理解的面向对象的Javascript 1 —— 动态类型和多态

如何优雅的使用vue+Dcloud（Hbuild）开发混合app

时间复杂度与空间复杂度分析

算法-图和图算法

想晋级高级工程师只知道表面是不够的！Git内部原理介绍

《码出高效》学习笔记与书中错误记录

渐进式Web应用PWA的未来

力扣解法汇总1802. 有界数组中指定下标处的最大值

#{} 和 ${}区别

#传输# #传输数据判断#

（1）SpringCloud 整合Python

（3）llvm ir转换过程

（9）YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO

(附源码)计算机毕业设计SSM疫情社区管理系统

（九）信息融合方式简介

(免费分享)基于springboot,vue疗养中心管理系统

（四）【Jmeter】 JMeter的界面布局与组件概述

(正则)提取页面里的img标签

(转)C#调用WebService 基础

.bat批处理出现中文乱码的情况

.net Application的目录

.NET 中小心嵌套等待的 Task，它可能会耗尽你线程池的现有资源，出现类似死锁的情况

.Net调用Java编写的WebServices返回值为Null的解决方法(SoapUI工具测试有返回值)

.Net多线程总结

.NET连接MongoDB数据库实例教程

/3GB和/USERVA开关

@Autowired和@Resource装配

@RequestParam，@RequestBody和@PathVariable 区别

[【JSON2WEB】 13 基于REST2SQL 和 Amis 的 SQL 查询分析器

[100天算法】-每个元音包含偶数次的最长子字符串（day 53）

[2019.3.5]BZOJ1934 [Shoi2007]Vote 善意的投票

下载地址

ubuntu安装hadoop集群

上传

JDK环境

hosts配置

创建用户hadoop

配置免密登录

解压安装包

配置环境变量

配置Hadoop集群

hadoop-env.sh配置

core-site.xml配置

hdfs-site.xml配置

mapred-site.xml配置

yarn-site.xml配置

workers配置

复制到其他节点

格式化NameNode

启动集群

验证Hadoop

访问HDFS

访问YARN

相关命令

HDFS相关的命令

YARN相关的命令

相关文章：