当前位置: 首页 > news >正文

Hadoop-HDFS

Hadoop的HDFS(Hadoop Distributed File System)是一个分布式文件系统,它被设计用来在普通的硬件上运行,并且提供高吞吐量访问应用程序数据的能力。

HDFS 架构

HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:

  • NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。(第一无二,主要职责就是沟通协调)
  • DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。(依稀系统可以有多个,主要职责就是存储数据)

各角色职责

写数据

客户端        

  1. 写数据时负责将文件切分成数据块  (64,128MB)
  2. 2个重要参数:block size:标识块大小;replication faxtor:表示数据存储在几个不通的地方

NameNode:

  1. NameNode分配DataNode地址给客户端

DataNode:

  1. 将数据存储在硬盘里
  2. 接收数据时同时将同样的数据发送下一个DataNode
  3. 通知NameNode数据所有数据写入完成

读数据

客户端        

  1. 告诉NameNode所要读取的文件名
  2. 根据NameNode返回的数据块地址,从最近的一个DataNode请求返回数据

NameNode:

  1. 收到客户端读请求后返回数据所在的地址,包括数据块列表和数据块对应的DataNode列表

DataNode:

  1. 收到客户端请求后返回数据

故障检测

  1. DataNode会每3秒发送一个心跳到NameNode,如果NameNode在10分钟内没有收到DataNode发送的心跳,则认为DataNode已经挂了。
  2. 客户端在发送数据到DataNode时,DataNode会回复一个应答信号,如果客户端没有收到应答信号(多次尝试后),客户端会认为主机已经挂掉。
  3. 客户端在发送数据到DataNode时,会携带一段校验和,DataNode会将数据和校验和一起存到硬盘。
  4. DataNode会定时发送所有DataNode的数据报告给NameNode,发送前会校验校验和,若数据损坏(校验和不正确),则不会发送损坏的数据块信息。

故障处理

客户端

  1.   写数据:以一个数据包为一个单位写入DataNode,DataNode在接受到数据包后会回复应答信号,如果客户端没收到DataNode的应答信号,则认为该DataNode挂了,会跳过该节点。该挂掉的节点随后会被NameDate处理。
  2. 读数据:如果读某个节点发现无响应数据,则跳过读在一个。

NameNode

  1. 这玩意存储有2张表,一个是数据块列表-保存了每个数据块在哪些DataNode上(数据块1:存储在 DataNode1,DataNode2,DataNode3),一个是DataNode列表-保存了每个DataNode上存储着哪些数据块(DataNode1:存储着数据块1,数据块2)。
  2. 如果书数据块损坏,则会更新数据块列表,将该数据块从表中删除
  3. 如果是DataNode损坏,会同时更新2张表
  4. 定时扫描数据块列表,检查每个数据块是否被充分备份,如果在扫描过程中发现数据块损坏或丢失,DataNode会向NameNode报告这些错误。NameNode随后会从其他DataNode复制相应的数据块副本,以修复损坏的数据。

相关文章:

  • Java | Leetcode Java题解之第279题完全平方数
  • 在spyder中使用arcgis pro的包
  • LoFTR关键点特征匹配算法环境构建与图像匹配测试Demo
  • 图像分类算法概述:深度学习方法
  • 乐尚代驾六订单执行一
  • C#初级——输出语句和转义字符
  • JAW:一款针对客户端JavaScript的图形化安全分析框架
  • Java 序列流:Java 对象的序列化和反序列化详解
  • 基于 HTML+ECharts 实现智慧运维数据可视化大屏(含源码)
  • SpringCloud 负载均衡
  • linux、windows、macos,命令终端清屏
  • 从0到1:理发店预约剪发小程序开发笔记(上)
  • SpringBoot接入mongodb例子,并有增删改查功能
  • 四、GD32 MCU 常见外设介绍 (5) TIMER 模块介绍
  • Vue中的diff算法
  • [译]Python中的类属性与实例属性的区别
  • 【刷算法】求1+2+3+...+n
  • 【跃迁之路】【585天】程序员高效学习方法论探索系列(实验阶段342-2018.09.13)...
  • 2017 年终总结 —— 在路上
  • CAP理论的例子讲解
  • chrome扩展demo1-小时钟
  • Cookie 在前端中的实践
  • C语言笔记(第一章:C语言编程)
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • Git初体验
  • jQuery(一)
  • JS+CSS实现数字滚动
  • React as a UI Runtime(五、列表)
  • windows-nginx-https-本地配置
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 百度地图API标注+时间轴组件
  • 从PHP迁移至Golang - 基础篇
  • 对话 CTO〡听神策数据 CTO 曹犟描绘数据分析行业的无限可能
  • 多线程事务回滚
  • 干货 | 以太坊Mist负责人教你建立无服务器应用
  • 开源地图数据可视化库——mapnik
  • 如何选择开源的机器学习框架?
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 数据可视化之 Sankey 桑基图的实现
  • 为视图添加丝滑的水波纹
  • 正则学习笔记
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • ​虚拟化系列介绍(十)
  • $.type 怎么精确判断对象类型的 --(源码学习2)
  • (arch)linux 转换文件编码格式
  • (第61天)多租户架构(CDB/PDB)
  • (二)正点原子I.MX6ULL u-boot移植
  • (附源码)springboot青少年公共卫生教育平台 毕业设计 643214
  • (详细文档!)javaswing图书管理系统+mysql数据库
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)...
  • (转)用.Net的File控件上传文件的解决方案
  • (转载)虚函数剖析
  • (自适应手机端)响应式新闻博客知识类pbootcms网站模板 自媒体运营博客网站源码下载
  • .net core使用ef 6