当前位置: 首页 > news >正文

spark shell

1.进行shell命令行

        spark-shell

2.创建RDD

2.1 读取文件创建RDD

        2.1.1读取linux文件系统的文件创建RDD

        --需要保证每一个worker中都有该文件

        val data1 = sc.textFile("file:/opt/file/word.txt")

        

        2.1.2读取hdfs文件系统上的文件创建RDD

        val data2=sc.textFile("hdfs:/word.txt")

2.2使用Parallelize创建RDD

·        val array1=Array(1,2,3,4,5,6)

        val data3 = sc.parallelize(array1)

2.3从其他的RDD中创建新的RDD

        val data4=data3.map(num =>(num*2))

3.对RDD进行操作

--统计RDD中的数据记录表

data1.count()

--对RDD中的数据进行过滤操作

--过滤数据,保留每行中含有hello的数据

val filterRDD=data1.filter(line => line.contains("hello"))

filterRDD.count()

--读取RDD的第一条数据

filterRDD.first()

--读取中的N条数据

filterRDD.take(2)

4.实现wordcount

val wordcount=data1.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)

 

将RDD中的数据写到hdfs上

wordcount.saveAsTextFile("hdfs:/out")

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 汽车及零部件研发项目管理系统:一汽东机工选择奥博思 PowerProject 提升研发项目管理效率
  • 人是一个AI Agent吗?
  • React Hook 总结(React 萌新升级打怪中...)
  • python打包exe文件-实现记录
  • Linux下如何安装配置Elastic Stack日志收集系统
  • 【Rust光年纪】解锁Rust语言核心库奥秘:加密、数字签名和数据库操作全面解析
  • spark 动态资源分配dynamicAllocation
  • Linux cd 和 pwd 命令
  • ESP8266模块(2)
  • [图解]《分析模式》漫谈16-“我用的”不能变成“我的”
  • python基础知识点(蓝桥杯python科目个人复习计划71)
  • C的预编译指令
  • LabVIEW和Alicat Scientific质量流量计实现精确流量控制
  • 2024 React 和 Vue 的生态工具
  • STM32之八:IIC通信协议
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • Cookie 在前端中的实践
  • Java程序员幽默爆笑锦集
  • Node 版本管理
  • Nodejs和JavaWeb协助开发
  • nodejs实现webservice问题总结
  • Promise初体验
  • SpingCloudBus整合RabbitMQ
  • spring boot 整合mybatis 无法输出sql的问题
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • vue总结
  • XForms - 更强大的Form
  • 大整数乘法-表格法
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 使用putty远程连接linux
  • 新版博客前端前瞻
  • 怎样选择前端框架
  • Android开发者必备:推荐一款助力开发的开源APP
  • Spring第一个helloWorld
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • ​油烟净化器电源安全,保障健康餐饮生活
  • # 透过事物看本质的能力怎么培养?
  • #Datawhale AI夏令营第4期#AIGC文生图方向复盘
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (delphi11最新学习资料) Object Pascal 学习笔记---第7章第3节(封装和窗体)
  • (python)数据结构---字典
  • (Windows环境)FFMPEG编译,包含编译x264以及x265
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (过滤器)Filter和(监听器)listener
  • (计算机网络)物理层
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (转)Google的Objective-C编码规范
  • (转)可以带来幸福的一本书
  • ****** 二十三 ******、软设笔记【数据库】-数据操作-常用关系操作、关系运算
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .NET CORE 第一节 创建基本的 asp.net core
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别
  • .NET 使用 XPath 来读写 XML 文件