当前位置: 首页 > news >正文

HDFS、YARN、MapReduce概述及三者之间的关系

文章目录

  • 一、HDFS架构概述
    • 1、HDFS定义
    • 2、HDFS组成
    • 3、HDFS文件块大小
    • 4、HDFS的优点
    • 5、HDFS的缺点
    • 6、HDFS读数据流程
    • 7、NameNode工作原理
    • 8、DataNode工作原理
  • 二、YARN架构概述
    • 1、yarn概述
    • 2、yarn构成组件
  • 三、MapReduce
    • 1、MapReduce优点:
    • 2、MapReduce缺点:
  • 四、三者之间的关系

一、HDFS架构概述

1、HDFS定义

HDFS(Hadoop Distributed File System) 它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2、HDFS组成

1、NameNode(nn): 就是Master,它是一个主管、管理者。存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表块所在的DataNode等。(告诉在哪存储,储存什么内容)

  • 管理HDFS的名称空间 ;
  • 配置副本策略;
  • 管理数据块(Block)映射信息;
  • 处理客户端读写请求。

2、DataNode : 就是slave,NameNode下达命令,DataNode执行实际的操作。

  • 存储实际的数据块;
  • 执行数据块的读、写操作

3、2nn:每隔一段时间对NameNode元数据备份
在这里插入图片描述

3、HDFS文件块大小

HDFS中的文件在物理上是分块存储(Block),块大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本是64M
结论:
(1)如果寻址时间约为10ms,即查找到目标block的时间为10ms
(2)寻址时间为传输时间的1%时,则为最佳状态。即:10ms/10%=1000ms
(3)而目前磁盘的传输速率普遍为100MB/s。因此块大小按最小单元设置为128M
(4)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
(5)HDFS的块设置太大,从磁盘传输数据的时间会明显大于定位这个块开始位置的时间。导致程序在处理这块数据时,会非常慢。

4、HDFS的优点

1)高容错性:数据自动保存多个副本。它通过增加副本的形式,提高容错性。如果某个副本丢失以后,如果有机器,它可自动恢复。
2)适合处理大数据:
数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
文件规模:能够处理百万规模以上的文件数量,数量相当之大。
3)可构建在廉价机器上,通过多副本机制,提高可靠性。

5、HDFS的缺点

1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2)无法高效的对大量小文件进行存储。

  • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息,这样是不可取的,因为NameNode的内存总是有限的。
  • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

3)不支持并发写入、文件随机修改。

  • 一个文件只能有一个写,不允许多个线程同时写;
  • 仅支持数据append(追加),不支持文件的随机修改。

6、HDFS读数据流程

(1)client创建文件对象,请求NameNode确认是否有权限以及NameNode是否存在client需要的内容,如果有NameNode将返回给client文件的元数据;
(2)client创建流去读DataNode的数据块,读取规则: 首先访问节点最近的block,其次保证负载均衡
(3)同时访问多个DataNode,数据是串行存储到client,即数据追加
在这里插入图片描述

7、NameNode工作原理

(1)服务器启动之后,edits和fsimage 加载编辑日志和镜像文件到内存中;
(2)client 发起数据内容增删改请求对NameNode
(3)edits_inprogress 先记录需要操作的内容,更新滚动日志, 记录到fsimages
(4)操作内存进行数据的增删改
(5)2nn: checkPoint触发条件:

  • 到了设置的定时时间;
  • Edits中的数据满了
    满足任一个条件,Secondary NameNode请求Namnode确实是否可同步,如果回应即可开始同步

(6)滚动正在写的Edits,为edits_inprogress_002,如果这个时间client正请求修改,将记录到edits_inprogress_002,完成之后修改名称为edits_001
(7)拷贝edits_001到2nn,并拉取镜像fsimages
(8)2nn加载edits_001和fsimages到内存,生成新得fsimages.chkpoint,并拷贝到NameNode上,并命名为fsimage.chkpoint, 保证数据是最新的
在这里插入图片描述
(9)如果namenode 其中一台active挂了(ip:50070),处理方法如下:
修改 hdfs-site.xml:中的内容,增加shell(/bin/true),update hadoop组件即可
在这里插入图片描述
具体看博客:https://blog.csdn.net/w892824196/article/details/100059674

Fsimage 和 Edits概念:
NameNode格式化之后,将在以下目录下生成文件:

  • Fsimage文件:HDFS文件系统元数据得一个永久性得检查点,其中包括HDFS文件系统的所有目录和文件inode的序列化信息;
  • Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到Edits文件中。
  • seen_txid:文件保存的是一个数据,就是最后一个edits_的数字
    在这里插入图片描述

8、DataNode工作原理

(1)DataNode启动后向NameNode注册。
(2)NameNode上标记注册成功;
(3)DataNode每周期(6小时)上报所有块信息给NameNode
(4)心跳每3s/次,心跳返回结果带有NameNode给当前DataNode的命令
(5)超过10分钟+30秒没有收到DataNode2的心跳,则认为该节点不可用。NameNode将不会在存储数据到该节点。
在这里插入图片描述

二、YARN架构概述

1、yarn概述

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序

2、yarn构成组件

1、ResourceManager (RM) :整个集群资源(内存、CPU等)的老大,通俗一点讲就是协调分配整个集群的内存和CPU。

  • 处理客户端请求;
  • 监控NodeManager
  • 启动和监控ApplicationMaster
  • 资源的分配和调度

查看rm的主备方法: 进入到容器,执行yarn rmadmin -getAllServiceState, 手动停一台active的rm,standby一分钟左右自动切换到active。
在这里插入图片描述
2、NodeManager (NM) :单个节点服务器资源老大。也就是单台机器该节点所需要的内存和cpu

  • 管理单个节点上的资源

  • 处理来自ResourceManager的命令

  • 处理来自ApplicationMaster的命令
    3、ApplicationMaster (AM):单个任务运行的老大

  • 为应用程序申请资源并分配给内部的任务

  • 任务的监控与容错
    4、Container:容器,相当一台独立的服务器,

  • container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等
    5、client就是客户端

  • 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block(块)

  • 与NameNode交互,获取文件的位置信息;

  • 与DataNode交互,读取或者写入数据;

  • Client提供一些命令来管理HDFS, 比如NameNode格式化。

  • Client可以通过一些命令来访问HDFS, 比如对HDFS增啥改查操作。
    在这里插入图片描述
    注意:
    1、客户端client可以有多个
    2、集群上可以运行多个ApplicationMaster
    3、每个NodeManager上可以有多个Container

三、MapReduce

MapReduce进程:一个完整的MapReduce程序在分布式运行有三类实例进程:

  • MrAppMaster:负责整个程序的过程调度以及状态协调;
  • MapTask:负责Map阶段整个数据处理流程
  • ReduceTask::负责Reduce阶段的整个数据处理流程
    在这里插入图片描述
    在这里插入图片描述

1、MapReduce优点:

  • 易于编程。用户只关系业务逻辑,实现框架的接口。
  • 良好扩展性。可以动态增加服务器,解决计算资源不够问题
  • 高容错性。任何一台机器挂掉,可以将任务转移到其他节点。
  • 适合海量数据计算,几千台服务器共同计算。

2、MapReduce缺点:

  • 不擅长实时计算。Mysql
  • 不擅长流式计算。Sparkstreaming flink
  • 不擅长DAG有向无环图计算。

四、三者之间的关系

客户端Client提交任务到资源管理器(ResourceManager),资源管理器接收到任务之后去NodeManager节点开启任务(ApplicationMaster), ApplicationMaster向ResourceManager申请资源, 若有资源ApplicationMaster负责开启任务即MapTask。开始干活了即分析任务,每个map独立工作,各自负责检索各自对应的DataNode,将结果记录到HDFS, DataNode负责存储,NameNode负责记录,2nn负责备份部分数据。
在这里插入图片描述

五 、面试题
1、常用端口
hadoop 3.x
HDFS NameNode 内部通常端口:8020/9000/9820
HDFS NameNode 对用户得查询端口:9870
Yarn查看任务运行情况:8088
历史服务器:19888
hadoop 2.x
HDFS NameNode 内部通常端口:8020/9000
HDFS NameNode 对用户得查询端口:50070
Yarn查看任务运行情况:8088
历史服务器:19888
2、常用的配置文件
3.x版本:
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
2.x版本:
core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

相关文章:

  • 商家入驻商城 多商户商城 宝塔安装搭建教程 说明 小程序、h5、pc端
  • 中海庭罗凯:Prometheus监控Argo Workflow云原生工作流的方法
  • JMeter进行并发测试参数化
  • lotus 1.17.1-rc3 calibnet Boost
  • priority_queue(优先级队列的模拟使用和实现)
  • git工作中常用的命令
  • mmdetection--pointpillars-demo运行
  • 使用react-amanda快速搭建管理类型的系统
  • 由于apt-get命令不知道为什么使用不了(可能是关闭了某个访问外网的东西),所以手动在ubuntu上安装mongodb
  • shell排序算法
  • Hadoop - 本地安装 完全分布式安装 集群配置 xsync分发脚本
  • 基于视觉AI的管道高后果区预警系统
  • 计算机毕业设计ssm+vue基本微信小程序的蛋糕预订平台系统
  • CSP202206-1 归一化处理 (C/C++)
  • c++ 11 多线程支持 (std::packaged_task)
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • Fabric架构演变之路
  • Git同步原始仓库到Fork仓库中
  • leetcode378. Kth Smallest Element in a Sorted Matrix
  • python 装饰器(一)
  • SOFAMosn配置模型
  • SpingCloudBus整合RabbitMQ
  • 翻译:Hystrix - How To Use
  • 理清楚Vue的结构
  • 浏览器缓存机制分析
  • 入口文件开始,分析Vue源码实现
  • 事件委托的小应用
  • ​虚拟化系列介绍(十)
  • #考研#计算机文化知识1(局域网及网络互联)
  • (LNMP) How To Install Linux, nginx, MySQL, PHP
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (十八)用JAVA编写MP3解码器——迷你播放器
  • (转)C#调用WebService 基础
  • (转)shell中括号的特殊用法 linux if多条件判断
  • (转)程序员技术练级攻略
  • (转)真正的中国天气api接口xml,json(求加精) ...
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .Net IOC框架入门之一 Unity
  • .NET Micro Framework初体验(二)
  • .NET 将混合了多个不同平台(Windows Mac Linux)的文件 目录的路径格式化成同一个平台下的路径
  • .NET 中小心嵌套等待的 Task,它可能会耗尽你线程池的现有资源,出现类似死锁的情况
  • .Net小白的大学四年,内含面经
  • @KafkaListener注解详解(一)| 常用参数详解
  • @require_PUTNameError: name ‘require_PUT‘ is not defined 解决方法
  • @value 静态变量_Python彻底搞懂:变量、对象、赋值、引用、拷贝
  • [ vulhub漏洞复现篇 ] Grafana任意文件读取漏洞CVE-2021-43798
  • [<事务专题>]
  • [APIO2015]巴厘岛的雕塑
  • [HackMyVM]靶场 Wild
  • [HDU]2161Primes
  • [Luogu P3527BZOJ 2527][Poi2011]Meteors(整体二分+BIT)
  • [NSSCTF 2nd] web刷题记录
  • [Oh My C++ Diary]用cout输出流保留输出小数位数的方法
  • [PHP] 算法-顺时针打印矩阵的PHP实现