当前位置: 首页 > news >正文

Hadoop三大组件之HDFS(一)

HDFS 简介

HDFS (Hadoop Distributed File System) 是一个分布式文件系统,用于存储文件,采用目录树结构来定位文件。它由多个服务器组成,每个服务器在集群中扮演不同的角色。

  • 适合一次写入,多次读取的场景
  • 文件创建、写入和关闭后,通常不再修改。

1. HDFS的架构

HDFS(Hadoop Distributed File System)采用主从架构,由一个NameNode(主节点)和多个DataNode(从节点)组成。NameNode负责管理HDFS命名空间和数据块映射信息(如文件名、文件目录层次结构、权限、块位置等)并配置副本策略,而DataNode负责存储实际的数据块。Secondary NameNode辅助NameNode进行元数据的检查点操作。

1. NameNode (主节点)
  • 角色:HDFS 的管理者和控制中心。
  • 功能
    • 管理 HDFS 的名称空间,维护文件和目录的结构。
    • 配置和管理副本策略,确定每个文件的副本数量和存放位置。
    • 管理数据块(Block)的信息,例如数据块的位置和状态。
    • 处理客户端的读写请求,协调文件的存储和访问。
2. DataNode (节点)
  • 角色:HDFS 的工作节点,执行实际的数据存储和处理。
  • 功能
    • 存储实际的数据块,负责数据的持久化。
    • 执行数据块的读写操作,根据 NameNode 的指令进行数据的管理。
3. Client (客户端)
  • 角色:与 HDFS 交互的用户或应用程序。
  • 功能
    • 在将文件上传到 HDFS 时,将文件切分为多个数据块。
    • 与 NameNode 交互,以获取文件的位置信息。
    • 与 DataNode 交互以进行数据的读写操作。
    • 提供命令和工具用于管理 HDFS,例如格式化 NameNode。
    • 执行对 HDFS 的增、删、改等操作。
4. Secondary NameNode (辅助 NameNode)
  • 角色:辅助 NameNode,提供一定的冗余和备份。
  • 功能
    • 定期合并 Fsimage 和 Edits 文件,从而减轻 NameNode 的负担。
    • 在紧急情况下(如 NameNode 故障)可以辅助恢复 NameNode 的状态,但并非其直接替代。

在这里插入图片描述

2. HDFS的读写流程

2.1 写流程

  1. 客户端向NameNode发起写请求,提供文件名和大小等信息。
  2. NameNode将文件划分为数据块,记录副本位置并返回给客户端。
  3. 客户端根据位置信息,将数据块发送给对应的DataNode。
  4. DataNode接收数据块后,将其存储到本地磁盘。
  5. 在写入时,DataNode先写入临时文件,完成后转为永久文件。
  6. DataNode定期向NameNode报告数据块信息。

在这里插入图片描述

2.2 读流程

  1. 客户端访问NameNode,查询元数据,获得数据块位置列表。
  2. 选择就近的DataNode服务器,建立输入流请求。
  3. DataNode向输入流中写数据,以packet校验。
  4. 关闭输入流。

在这里插入图片描述

3. HDFS的优缺点

3.1 优点

  • 高容错:数据块复制存储,节点故障时自动恢复。
  • 高吞吐:并行处理数据块,高效读写和批处理。
  • 适合大文件:将大文件分块存储,适合大规模数据处理。
  • 廉价机器构建:可以构建在廉价的机器上,有多副本机制提升其可靠性。

3.2 缺点

  • 延迟高:不适合低延时数据访问。
  • 不支持并发写入:一个文件只能有一个写入进程,不允许多个线程同时写。
  • 仅支持随机修改:仅支持数据追加,不支持文件的随机修改。
  • 小文件存储不高效:浪费存储空间和元数据开销。

使用场景:大规模数据存储和计算、日志分析。

4. HDFS默认存储块大小

HDFS默认块大小为128MB(2.x版本后),基于最佳传输损耗理论。文件块越大,寻址时间越短,但磁盘的传输时间越长。在一次传输中,寻址时间占用总传输时间的1%时,传输效率最佳。

切分规则:

第一片:0-128M,第二片:128-256M,第三片:256-300M每次切片的时候,都要判断切完剩下的部分是否大于块的1.1倍,大于时候,继续按照规定切块,小于1.1倍时候,将剩下的文件大小归到一个切片上去

5. HDFS的心跳机制

DataNode每隔3秒向NameNode发送心跳信号,报告状态和存储信息。如10分钟未收到心跳信号,NameNode认为节点不可用,并重新分配数据块副本。

6. HDFS的负载均衡

HDFS的负载均衡机制确保数据在DataNode上的分布均匀。当DataNode存储利用率过高时,系统自动将数据迁移至空闲的DataNode。通过手动命令或配置参数调整负载均衡策略。

7. Secondary NameNode

Secondary NameNode辅助NameNode进行元数据的检查点操作。定期从NameNode获取fsimage和edits文件,合并生成新的fsimage文件,发送回NameNode,以减小edits文件大小,防止NameNode重启时加载过多日志。

8. HDFS 的机架感知

在 HDFS 中,通过机架感知来配置副本存放策略,不仅提高了数据访问的效率,还增强了系统的容错能力和数据的安全性。这种策略适合大规模分布式文件系统,有效应对数据丢失和访问延迟问题。具体如下:

副本存放策略
  1. 第一副本:存放在本机(即客户端请求的节点)。
  2. 第二副本:存放在同机架内的其他服务器节点。
  3. 第三副本:存放在不同机架的一个服务器节点上。
好处
  1. 提高访问速度:如果本机的数据损坏或丢失,客户端可以快速从同机架的相邻节点获取数据,访问速度明显快于跨机架访问。

  2. 增强数据安全性:如果本机所在的机架出现问题,由于副本分散存储在不同机架内,确保数据不会因单一机架故障而丢失,客户端仍能访问到数据。

相关文章:

  • 在树莓派上部署开源监控系统 ZoneMinder
  • 基于php的幸运舞蹈课程工作室管理系统
  • 黑名单与ip禁令是同一个东西吗
  • Android开发中的ViewModel
  • SpringMVC4-SpringMVC获取请求参数
  • TI DSP TMS320F280025 Note14:模数转换器ADC原理分析与应用
  • MapReduce学习与理解
  • StopWath,apache commons lang3 包下的一个任务执行时间监视器的使用
  • HTML5实现唐朝服饰网站模板源码
  • 服务器使用了代理ip,遇到流量攻击,会对服务器有影响吗
  • 汽车保养BBBBBBBBBBB
  • 电信卡无信号问题
  • Spring Boot应用:电子商务平台开发
  • 了解Webpack并处理样式文件
  • 解决端口被占用
  • JS中 map, filter, some, every, forEach, for in, for of 用法总结
  • 时间复杂度分析经典问题——最大子序列和
  • 【css3】浏览器内核及其兼容性
  • GitUp, 你不可错过的秀外慧中的git工具
  • HTTP那些事
  • isset在php5.6-和php7.0+的一些差异
  • JS+CSS实现数字滚动
  • JS专题之继承
  • magento 货币换算
  • PV统计优化设计
  • spring boot 整合mybatis 无法输出sql的问题
  • Zsh 开发指南(第十四篇 文件读写)
  • 从setTimeout-setInterval看JS线程
  • 每天一个设计模式之命令模式
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 浅谈JavaScript的面向对象和它的封装、继承、多态
  • 实习面试笔记
  • 主流的CSS水平和垂直居中技术大全
  • ​Redis 实现计数器和限速器的
  • ​一些不规范的GTID使用场景
  • # Panda3d 碰撞检测系统介绍
  • #if 1...#endif
  • (+4)2.2UML建模图
  • (70min)字节暑假实习二面(已挂)
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (void) (_x == _y)的作用
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (过滤器)Filter和(监听器)listener
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (亲测成功)在centos7.5上安装kvm,通过VNC远程连接并创建多台ubuntu虚拟机(ubuntu server版本)...
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (四)Controller接口控制器详解(三)
  • (一)SvelteKit教程:hello world
  • (转) Android中ViewStub组件使用
  • (转)GCC在C语言中内嵌汇编 asm __volatile__
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • (转载)微软数据挖掘算法:Microsoft 时序算法(5)
  • ***测试-HTTP方法
  • .htaccess配置常用技巧
  • .Mobi域名介绍