当前位置: 首页 > news >正文

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②...

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

三,深入RDD

RDD本身是一个抽象类,具有很多具体的实现子类:

220705_8HBn_1791057.jpg

RDD都会基于Partition进行计算:

220705_6dxe_1791057.jpg

 

默认的Partitioner如下所示:

220706_hVcD_1791057.jpg

其中HashPartitioner的文档说明如下:

220706_dHR2_1791057.jpg

另外一种常用的Partitioner是RangePartitioner:

220707_Tjn6_1791057.png

RDD在持久化的需要考虑内存策略:

220708_Netl_1791057.jpg

Spark提供很多StorageLevel可供选择:

220939_GmLH_1791057.jpg

 

于此同时Spark提供了unpersistRDD:

220711_j24t_1791057.png

对RDD本身还有一个非常重要的CheckPoint操作:

220712_QJMj_1791057.jpg

其中doCheckpoint的细节如下:

220714_vKY8_1791057.png

NewHadoopRDD为例,其内部的信息如下所示:

220716_5Q9A_1791057.png

WholeTextFileRDD为例,其内部的信息如下所示:

220717_3JeM_1791057.jpg

RDD在产生作业调用的时候,经典的过程如下所示:

220719_jG1a_1791057.png

 

转载于:https://my.oschina.net/u/1791057/blog/362073

相关文章:

  • 我对于 setWindow, setViewPort 与 translate 的理解
  • DG_Oracle DataGuard Failover主备节点切换(案例)
  • 怎样设计接口?
  • 选择器,可选择通道和选择键类
  • Java中有关Null的9件事
  • 数据结构与算法JavaScript (二) 队列
  • JavaScript编写了一个计时器
  • 基于 jQuery 实现的精致作品集图片导航效果
  • 这两天自己模仿写的一个Asp.Net的显示分页方法 附加实体转换和存储过程
  • show processlist 执行状态分析
  • 登陆oracle慢原因分析和解决方案
  • 多线程和多进程的差别(小结)
  • 常见Exchange 邮件黑名单移除方法
  • jQuery滚动捕捉内容块
  • IOS版本更新判定(用以加载引导页)
  • php的引用
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • Idea+maven+scala构建包并在spark on yarn 运行
  • Java,console输出实时的转向GUI textbox
  • Java深入 - 深入理解Java集合
  • jquery ajax学习笔记
  • magento2项目上线注意事项
  • React+TypeScript入门
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • 给Prometheus造假数据的方法
  • 机器学习 vs. 深度学习
  • 看域名解析域名安全对SEO的影响
  • 如何胜任知名企业的商业数据分析师?
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • 职业生涯 一个六年开发经验的女程序员的心声。
  • 函数计算新功能-----支持C#函数
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • ​【C语言】长篇详解,字符系列篇3-----strstr,strtok,strerror字符串函数的使用【图文详解​】
  • ​插件化DPI在商用WIFI中的价值
  • #pragma multi_compile #pragma shader_feature
  • (Java数据结构)ArrayList
  • (WSI分类)WSI分类文献小综述 2024
  • (带教程)商业版SEO关键词按天计费系统:关键词排名优化、代理服务、手机自适应及搭建教程
  • (顶刊)一个基于分类代理模型的超多目标优化算法
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (求助)用傲游上csdn博客时标签栏和网址栏一直显示袁萌 的头像
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • (转)Windows2003安全设置/维护
  • (转)负载均衡,回话保持,cookie
  • ***详解账号泄露:全球约1亿用户已泄露
  • *Django中的Ajax 纯js的书写样式1
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET/C# 使用反射调用含 ref 或 out 参数的方法
  • .NET国产化改造探索(三)、银河麒麟安装.NET 8环境
  • .Net小白的大学四年,内含面经
  • @font-face 用字体画图标
  • [ 常用工具篇 ] POC-bomber 漏洞检测工具安装及使用详解