当前位置: 首页 > news >正文

大数据复习知识点5

HDFS读流程、写流程:

写流程:Client将文件切分成多个Block,然后逐个上传。Client与NameNode交互,获取文件存储的位置信息。Client根据位置信息,与相应的DataNode交互,写入数据块。

读流程:Client向NameNode请求读取文件。NameNode返回文件所在的DataNode位置信息给Client。Client根据位置信息,直接从DataNode读取数据块,并组合成完整的文件。

校验和的作用:校验和用于确保数据的完整性和准确性。在HDFS中,写入数据时会计算校验和,并在读取时验证。如果校验和不匹配,说明数据可能在存储或传输过程中损坏,需要进行修复或重新获取。

什么是序列化与反序列化:序列化是将内存中的对象转换为字节序列(或其他数据传输协议),以便于存储到磁盘或网络传输。反序列化则是将收到的字节序列(或其他数据传输协议)转换回内存中的对象。

常见的数据压缩算法:HDFS支持多种压缩算法,如Gzip、Snappy、LZO等。这些算法可以在保证数据完整性的前提下,显著减小数据的存储空间和传输带宽。

什么是Writable:Writable是Hadoop中用于序列化和反序列化的接口。Hadoop自己开发了一套序列化机制(Writable),用于将对象转换为字节序列进行存储和网络传输。

支持切分的压缩格式:支持切分的压缩格式通常用于处理大量小文件。例如,Sequence File和Avro File都支持文件的切分和压缩,从而提高存储和处理的效率。

 

相关文章:

  • linux服务器部署filebeat
  • [Everything] 文件搜索工具的下载及详细安装使用过程(附有下载文件)
  • Hadoop三大组件之HDFS(一)
  • 在树莓派上部署开源监控系统 ZoneMinder
  • 基于php的幸运舞蹈课程工作室管理系统
  • 黑名单与ip禁令是同一个东西吗
  • Android开发中的ViewModel
  • SpringMVC4-SpringMVC获取请求参数
  • TI DSP TMS320F280025 Note14:模数转换器ADC原理分析与应用
  • MapReduce学习与理解
  • StopWath,apache commons lang3 包下的一个任务执行时间监视器的使用
  • HTML5实现唐朝服饰网站模板源码
  • 服务器使用了代理ip,遇到流量攻击,会对服务器有影响吗
  • 汽车保养BBBBBBBBBBB
  • 电信卡无信号问题
  • Google 是如何开发 Web 框架的
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • Android 控件背景颜色处理
  • Consul Config 使用Git做版本控制的实现
  •  D - 粉碎叛乱F - 其他起义
  • ECMAScript6(0):ES6简明参考手册
  • ECS应用管理最佳实践
  • ES学习笔记(12)--Symbol
  • Fastjson的基本使用方法大全
  • Mac 鼠须管 Rime 输入法 安装五笔输入法 教程
  • Markdown 语法简单说明
  • MySQL几个简单SQL的优化
  • vuex 笔记整理
  • Vue全家桶实现一个Web App
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 分类模型——Logistics Regression
  • 检测对象或数组
  • 力扣(LeetCode)965
  • 深度学习在携程攻略社区的应用
  • scrapy中间件源码分析及常用中间件大全
  • ​configparser --- 配置文件解析器​
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • $nextTick的使用场景介绍
  • (4)Elastix图像配准:3D图像
  • (c语言)strcpy函数用法
  • (done) NLP “bag-of-words“ 方法 (带有二元分类和多元分类两个例子)词袋模型、BoW
  • (Java入门)学生管理系统
  • (二)延时任务篇——通过redis的key监听,实现延迟任务实战
  • (规划)24届春招和25届暑假实习路线准备规划
  • (七)理解angular中的module和injector,即依赖注入
  • (三)Pytorch快速搭建卷积神经网络模型实现手写数字识别(代码+详细注解)
  • (转)ObjectiveC 深浅拷贝学习
  • .bashrc在哪里,alias妙用
  • .gitignore文件—git忽略文件
  • .NET : 在VS2008中计算代码度量值
  • .NET BackgroundWorker
  • .NET gRPC 和RESTful简单对比
  • .Net MVC + EF搭建学生管理系统
  • .NET6 开发一个检查某些状态持续多长时间的类
  • .NET8使用VS2022打包Docker镜像