当前位置: 首页 > news >正文

spark hive python依赖第三方包

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

  1. 下载python对应版本源代码,https://www.python.org/downloads/source/
  2. 构建过程:
# 下载 wget https://www.python.org/ftp/python/2.7.9/Python-2.7.9.tgz
tar -zxvf Python-2.7.9.tgz
cd Python-2.7.9
# 指定打包路径
./configure --prefix=/home/tmp/python2.7.9 
make && make install​

  3.  安装需要用到的库,以 pykafka 为例

# 用 -t 指定安装路径,而非默认路径​
pip install -t /home/tmp/python2.7.9/lib/python2.7/site-packages pykafka 

   4.  打包

# 注意是在安装目录内部打的包,这关系到后续指定python时的路径,如果这里不同,后续也要相应调整
cd python2.7.9
tar -zcf python2.7.9.tgz *​

  5.  上传到hdfs

hadoop fs -put python2.7.9.tgz /usr/jar/python

spark yarn client模式

spark-submit --queue <yarn queue> --conf spark.yarn.dist.archives=hdfs://DClusterNmg4/user/xxx/xxx/python2.7.9.tgz#python2.7.9 --conf spark.pyspark.python=./python2.7.9/bin/python --deploy-mode client --py-files xxxx-dependency.py main.py
#后为后续引用这个包所用的名称

spark yarn cluster模式

spark-submit --queue <yarn queue> --conf spark.yarn.dist.archives=hdfs://DClusterNmg4/user/xxx/xxx/python2.7.9.tgz#python2.7.9 --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python2.7.9/bin/python --deploy-mode cluster --py-files xxxx-dependency.py main.py
#后为后续引用这个包所用的名称

hive udf模式

hive > add ARCHIVE /usr/python/anaconda2.tar.gz;
hive > add file /usr/test.py;
hive > select
     >    TRANSFORM(data)
     >    USING 'anaconda2.tar.gz/anaconda2/bin/python test.py'
     >    as (min_num)
     > from test_a;

 

转载于:https://my.oschina.net/u/2000675/blog/2999919

相关文章:

  • Asp 输出编码为UTF-8格式的XML内容的注意事项
  • [Leetcode] Permutations II
  • Acticles about Interface!
  • 【Camera专题】你应该熟悉的Camera驱动框架一(Hal层-kernel层)
  • HanLP分词命名实体提取详解
  • 染陌足迹——SeeConf2019
  • MyBatis-Plus 代码生成器
  • 归并排序(python)
  • C++学习札记(2011-10-06)
  • 蔚来汽车秦力洪:智能化与电动化天生融合,6大核心技术自主研发 | 电动汽车百人会 2019...
  • 杭电2090
  • Arcgis Runtime 100.3开发实例源代码调试日志
  • 上厅房,下厨房,ElasticSearch有的忙
  • Linux安装gitlab
  • 专家齐议尘肺病农民救助难点
  • 分享的文章《人生如棋》
  • Date型的使用
  • JavaWeb(学习笔记二)
  • Linux学习笔记6-使用fdisk进行磁盘管理
  • node.js
  • Redux 中间件分析
  • Spring Cloud Alibaba迁移指南(一):一行代码从 Hystrix 迁移到 Sentinel
  • Windows Containers 大冒险: 容器网络
  • XML已死 ?
  • 不用申请服务号就可以开发微信支付/支付宝/QQ钱包支付!附:直接可用的代码+demo...
  • 分享几个不错的工具
  • 基于Volley网络库实现加载多种网络图片(包括GIF动态图片、圆形图片、普通图片)...
  • 前端_面试
  • 通过获取异步加载JS文件进度实现一个canvas环形loading图
  • 最简单的无缝轮播
  • 你对linux中grep命令知道多少?
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • ​flutter 代码混淆
  • ​人工智能书单(数学基础篇)
  • # centos7下FFmpeg环境部署记录
  • #Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法
  • #微信小程序:微信小程序常见的配置传值
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • (16)UiBot:智能化软件机器人(以头歌抓取课程数据为例)
  • (SpringBoot)第七章:SpringBoot日志文件
  • (二十四)Flask之flask-session组件
  • (附源码)基于SpringBoot和Vue的厨到家服务平台的设计与实现 毕业设计 063133
  • (简单) HDU 2612 Find a way,BFS。
  • (三)uboot源码分析
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • .apk文件,IIS不支持下载解决
  • .bat批处理(九):替换带有等号=的字符串的子串
  • .NET C#版本和.NET版本以及VS版本的对应关系
  • .NET Core 成都线下面基会拉开序幕
  • .Net Remoting常用部署结构
  • .NET 发展历程
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)
  • [145] 二叉树的后序遍历 js
  • [20140403]查询是否产生日志
  • [20190416]完善shared latch测试脚本2.txt