当前位置：首页 > news >正文

HDFS、YARN、MapReduce概述及三者之间的关系

news 来源：原创 2024/4/30 1:18:50

文章目录

一、HDFS架构概述
- 1、HDFS定义
- 2、HDFS组成
- 3、HDFS文件块大小
- 4、HDFS的优点
- 5、HDFS的缺点
- 6、HDFS读数据流程
- 7、NameNode工作原理
- 8、DataNode工作原理
二、YARN架构概述
- 1、yarn概述
- 2、yarn构成组件
三、MapReduce
- 1、MapReduce优点：
- 2、MapReduce缺点：
四、三者之间的关系

一、HDFS架构概述

1、HDFS定义

HDFS(Hadoop Distributed File System) 它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2、HDFS组成

1、NameNode（nn）: 就是Master，它是一个主管、管理者。存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。(告诉在哪存储，储存什么内容)

管理HDFS的名称空间 ;
配置副本策略；
管理数据块（Block）映射信息；
处理客户端读写请求。

2、DataNode : 就是slave，NameNode下达命令，DataNode执行实际的操作。

存储实际的数据块；
执行数据块的读、写操作

3、2nn：每隔一段时间对NameNode元数据备份
在这里插入图片描述

3、HDFS文件块大小

HDFS中的文件在物理上是分块存储（Block），块大小可以通过配置参数（dfs.blocksize）来规定，默认大小在Hadoop2.x/3.x版本中是128M,1.x版本是64M
结论：
（1）如果寻址时间约为10ms，即查找到目标block的时间为10ms
（2）寻址时间为传输时间的1%时，则为最佳状态。即：10ms/10%=1000ms
（3）而目前磁盘的传输速率普遍为100MB/s。因此块大小按最小单元设置为128M
（4）HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；
（5）HDFS的块设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置的时间。导致程序在处理这块数据时，会非常慢。

4、HDFS的优点

1）高容错性：数据自动保存多个副本。它通过增加副本的形式，提高容错性。如果某个副本丢失以后，如果有机器，它可自动恢复。
2）适合处理大数据：
数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
文件规模：能够处理百万规模以上的文件数量，数量相当之大。
3）可构建在廉价机器上，通过多副本机制，提高可靠性。

5、HDFS的缺点

1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
2）无法高效的对大量小文件进行存储。

存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息，这样是不可取的，因为NameNode的内存总是有限的。
小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3）不支持并发写入、文件随机修改。

一个文件只能有一个写，不允许多个线程同时写；
仅支持数据append（追加），不支持文件的随机修改。

6、HDFS读数据流程

（1）client创建文件对象，请求NameNode确认是否有权限以及NameNode是否存在client需要的内容，如果有NameNode将返回给client文件的元数据；
（2）client创建流去读DataNode的数据块，读取规则: 首先访问节点最近的block，其次保证负载均衡
（3）同时访问多个DataNode，数据是串行存储到client，即数据追加
在这里插入图片描述

7、NameNode工作原理

（1）服务器启动之后，edits和fsimage 加载编辑日志和镜像文件到内存中；
（2）client 发起数据内容增删改请求对NameNode
（3）edits_inprogress 先记录需要操作的内容，更新滚动日志, 记录到fsimages
（4）操作内存进行数据的增删改
（5）2nn: checkPoint触发条件：

到了设置的定时时间；
Edits中的数据满了
满足任一个条件，Secondary NameNode请求Namnode确实是否可同步，如果回应即可开始同步

（6）滚动正在写的Edits,为edits_inprogress_002,如果这个时间client正请求修改，将记录到edits_inprogress_002，完成之后修改名称为edits_001
（7）拷贝edits_001到2nn，并拉取镜像fsimages
（8）2nn加载edits_001和fsimages到内存，生成新得fsimages.chkpoint，并拷贝到NameNode上，并命名为fsimage.chkpoint, 保证数据是最新的
在这里插入图片描述
（9）如果namenode 其中一台active挂了(ip:50070)，处理方法如下：
修改 hdfs-site.xml：中的内容，增加shell(/bin/true),update hadoop组件即可

具体看博客：https://blog.csdn.net/w892824196/article/details/100059674

Fsimage 和 Edits概念：
NameNode格式化之后，将在以下目录下生成文件：

Fsimage文件：HDFS文件系统元数据得一个永久性得检查点，其中包括HDFS文件系统的所有目录和文件inode的序列化信息；
Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。
seen_txid：文件保存的是一个数据，就是最后一个edits_的数字

8、DataNode工作原理

（1）DataNode启动后向NameNode注册。
（2）NameNode上标记注册成功；
（3）DataNode每周期（6小时）上报所有块信息给NameNode
（4）心跳每3s/次，心跳返回结果带有NameNode给当前DataNode的命令
（5）超过10分钟+30秒没有收到DataNode2的心跳，则认为该节点不可用。NameNode将不会在存储数据到该节点。
在这里插入图片描述

二、YARN架构概述

1、yarn概述

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

2、yarn构成组件

1、ResourceManager (RM) ：整个集群资源（内存、CPU等）的老大，通俗一点讲就是协调分配整个集群的内存和CPU。

处理客户端请求；
监控NodeManager
启动和监控ApplicationMaster
资源的分配和调度

查看rm的主备方法: 进入到容器，执行yarn rmadmin -getAllServiceState, 手动停一台active的rm，standby一分钟左右自动切换到active。
在这里插入图片描述
2、NodeManager (NM) ：单个节点服务器资源老大。也就是单台机器该节点所需要的内存和cpu

管理单个节点上的资源
处理来自ResourceManager的命令
处理来自ApplicationMaster的命令
3、ApplicationMaster (AM)：单个任务运行的老大
为应用程序申请资源并分配给内部的任务
任务的监控与容错
4、Container：容器，相当一台独立的服务器，
container是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。
5、client就是客户端
文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block(块)
与NameNode交互，获取文件的位置信息；
与DataNode交互，读取或者写入数据；
Client提供一些命令来管理HDFS, 比如NameNode格式化。
Client可以通过一些命令来访问HDFS, 比如对HDFS增啥改查操作。

注意：
1、客户端client可以有多个
2、集群上可以运行多个ApplicationMaster
3、每个NodeManager上可以有多个Container

三、MapReduce

MapReduce进程：一个完整的MapReduce程序在分布式运行有三类实例进程：

MrAppMaster：负责整个程序的过程调度以及状态协调；
MapTask：负责Map阶段整个数据处理流程
ReduceTask:：负责Reduce阶段的整个数据处理流程

1、MapReduce优点：

易于编程。用户只关系业务逻辑，实现框架的接口。
良好扩展性。可以动态增加服务器，解决计算资源不够问题
高容错性。任何一台机器挂掉，可以将任务转移到其他节点。
适合海量数据计算，几千台服务器共同计算。

2、MapReduce缺点：

不擅长实时计算。Mysql
不擅长流式计算。Sparkstreaming flink
不擅长DAG有向无环图计算。

四、三者之间的关系

客户端Client提交任务到资源管理器（ResourceManager）,资源管理器接收到任务之后去NodeManager节点开启任务（ApplicationMaster）, ApplicationMaster向ResourceManager申请资源, 若有资源ApplicationMaster负责开启任务即MapTask。开始干活了即分析任务，每个map独立工作，各自负责检索各自对应的DataNode，将结果记录到HDFS, DataNode负责存储，NameNode负责记录，2nn负责备份部分数据。
在这里插入图片描述

五、面试题
1、常用端口
hadoop 3.x
HDFS NameNode 内部通常端口：8020/9000/9820
HDFS NameNode 对用户得查询端口：9870
Yarn查看任务运行情况：8088
历史服务器：19888
hadoop 2.x
HDFS NameNode 内部通常端口：8020/9000
HDFS NameNode 对用户得查询端口：50070
Yarn查看任务运行情况：8088
历史服务器：19888
2、常用的配置文件
3.x版本：
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
2.x版本：
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves