当前位置: 首页 > news >正文

Spark之从hdfs读取数据

var hv=sc.textFile("hdfs://192.168.15.30:8020/user/hive/warehouse/ycapp.db/appindex")
var hivedata=hv.map(_.split("\t")).map(e => ( e(1), e(2),e(0).toInt))
(String, String, String) = (9,2017-07-26,all_posts)
-- 访问第一行的第一列元素
hivedata.first()._1  
-- 把三列数据中的第一列筛选出来
var hivedata1=hivedata.map(res=>res._1)
-- 第一列数据的排重数量
hivedata1.distinct().count()
-- 把第一列数据转化成键值对
var hivedata1_map= hivedata1.map(res=>(res,1))
-- 统计第一列数据的频数
var hivedata1_mapv=hivedata1_map.reduceByKey((x,y)=>x+y)
-- 取出数据中的第一列和第三列
var hivedata2=hivedata.map(res=>(res._1,res._3))
-- 统计第三列数据在第一列分组中的求和
ar hivedata2_mv =hivedata2.reduceByKey((x,y)=>x+y)
-- 统计多个key的groupby操作
var hivedata3=hivedata.map(res=>(res._1+res._2,res._3))
var hivedata3_mv=hivedata3.reduceByKey((x,y)=>x+y)
var hivedata3_mv2=hivedata3_mv.map(res=>(res._1.substring(0,10),res._1.substring(10),res._2))

 

转载于:https://www.cnblogs.com/wangbin2188/p/8252717.html

相关文章:

  • Python3之uuid模块
  • Jquery学习笔记 - DOM操作
  • 【Java线程安全】 — ThreadLocal
  • python模块之collections模块
  • ElasticSearch集群介绍二
  • jquery ajax success 函数 异步调用方法中不能给全局变量赋值的原因及解决办法
  • 06人月神话阅读笔记
  • python之请求报文对比(假定最多二维字典)
  • spring_01介绍,搭建,概念,以及配置和属性注入
  • vue 手机端开发 小商铺 添加购物车 以及结算 功能
  • 【django基础】
  • iptables(1):iptables 基本概念
  • 爬虫-Beautiful Soup模块
  • python07-面向对象的程序设计
  • new Date()时间
  • ECS应用管理最佳实践
  • js中forEach回调同异步问题
  • JS专题之继承
  • SAP云平台运行环境Cloud Foundry和Neo的区别
  • vue2.0项目引入element-ui
  • 阿里云购买磁盘后挂载
  • 基于web的全景—— Pannellum小试
  • 力扣(LeetCode)357
  • 七牛云 DV OV EV SSL 证书上线,限时折扣低至 6.75 折!
  • 前端自动化解决方案
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • 它承受着该等级不该有的简单, leetcode 564 寻找最近的回文数
  • 用quicker-worker.js轻松跑一个大数据遍历
  • 关于Android全面屏虚拟导航栏的适配总结
  • ​linux启动进程的方式
  • ​草莓熊python turtle绘图代码(玫瑰花版)附源代码
  • !!【OpenCV学习】计算两幅图像的重叠区域
  • #QT项目实战(天气预报)
  • #每日一题合集#牛客JZ23-JZ33
  • $ git push -u origin master 推送到远程库出错
  • (C++17) optional的使用
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (附源码)ssm高校运动会管理系统 毕业设计 020419
  • (附源码)ssm学生管理系统 毕业设计 141543
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • (七)c52学习之旅-中断
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • (转)从零实现3D图像引擎:(8)参数化直线与3D平面函数库
  • .NET Core 中插件式开发实现
  • .NET 常见的偏门问题
  • .NET 设计模式初探
  • .NET大文件上传知识整理
  • .Net通用分页类(存储过程分页版,可以选择页码的显示样式,且有中英选择)
  • .Net语言中的StringBuilder:入门到精通
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • @JoinTable会自动删除关联表的数据
  • @Validated和@Valid校验参数区别
  • [ IO.File ] FileSystemWatcher
  • [@Controller]4 详解@ModelAttribute