当前位置: 首页 > news >正文

Spark的三种运行模式快速入门

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

1、Spark本地运行模式

控制台:

pyspark --master local[4]

打开浏览器,访问http://localhost:4040可查看运行状态。

缺省使用的Python环境是2.7,如果希望使用python3,可以设置环境变量 PYSPARK_PYTHON=python3.

在控制台首先运行:

export PYSPARK_PYTHON=python3

或者将上述语句加入pyspark的脚本中,或者加入~/.bashrc文件中,或者加到.profile。控制台窗口需要重启才有效。

2、Spark集群运行模式

这里介绍Spark的Standalone模式,即只有或主要运行Spark的集群。

2.1 启动Master

启动Master:

start-master.sh

打开浏览器进入Master管理页面: http://localhost:8080

可以看到,一般启动Master的监听URL在:
URL:          spark://supermap:7077
REST URL: spark://supermap:6066(cluster mode)

2.2 启动Slave

启动Slave:

start-slaves.sh --master spark://supermap:7077

上面的--master参数为启动的master服务地址。
刷新Master的管理网页,可以看到新增加的worker。

2.3 启动控制台客户端

连接集群:

pyspark --master http://supermap:7077/

刷新Master的管理网页,可以看到新增加的Application.
点击PySparkShell,进去可以看到所运行的job等信息。

2.4 提交批处理任务

使用spark-submmit,具体参考:http://spark.apache.org/docs/latest/submitting-applications.html

注意,提交任务既可以进入交互模式,也可以使用deploy-mode。交互模式下,客户端一直保持连接,并即时获得运行的信息。而deploy-mode提交后由后台运行,关闭客户端不影响任务的执行,运行信息需要通过日志文件去查看。

3、Spark on Mesos协同运行模式

如果集群上会运行很多任务,Spark的调度器与别的调度器会竞争资源,就需要更高级的调度器来进行协调,一般使用mesos或YARN。这里不再详述,可参考:http://spark.apache.org/docs/latest/running-on-mesos.html


转载于:https://my.oschina.net/u/2306127/blog/637226

相关文章:

  • 主从复制原理
  • 绘制图片和文字
  • mysql日志中redo和undo日志概念以及应用
  • configure/make/make install的作用
  • MySQL索引
  • HDU 5019 Revenge of GCD(数学)
  • [<事务专题>]
  • Nginx总算支持动态模块了
  • 【MySQL中的锁】
  • Linux在线安装git(亲测成功)
  • [<MySQL优化总结>]
  • yum update
  • Redis是什么?
  • C语言中函数返回值的问题
  • 哈夫曼树
  • 【划重点】MySQL技术内幕:InnoDB存储引擎
  • leetcode讲解--894. All Possible Full Binary Trees
  • Lsb图片隐写
  • pdf文件如何在线转换为jpg图片
  • Quartz初级教程
  • session共享问题解决方案
  • Swoft 源码剖析 - 代码自动更新机制
  • tensorflow学习笔记3——MNIST应用篇
  • 阿里云应用高可用服务公测发布
  • 从零搭建Koa2 Server
  • 力扣(LeetCode)965
  • 如何设计一个比特币钱包服务
  • 要让cordova项目适配iphoneX + ios11.4,总共要几步?三步
  • #数学建模# 线性规划问题的Matlab求解
  • (2020)Java后端开发----(面试题和笔试题)
  • (cos^2 X)的定积分,求积分 ∫sin^2(x) dx
  • (C语言)逆序输出字符串
  • (层次遍历)104. 二叉树的最大深度
  • (分享)一个图片添加水印的小demo的页面,可自定义样式
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .Net 路由处理厉害了
  • .NET框架
  • .NET框架类在ASP.NET中的使用(2) ——QA
  • @Autowired和@Resource装配
  • @staticmethod和@classmethod的作用与区别
  • [ 云计算 | Azure 实践 ] 在 Azure 门户中创建 VM 虚拟机并进行验证
  • [20171102]视图v$session中process字段含义
  • [Angularjs]asp.net mvc+angularjs+web api单页应用
  • [Bada开发]初步入口函数介绍
  • [BetterExplained]书写是为了更好的思考(转载)
  • [C#]获取指定文件夹下的所有文件名(递归)
  • [CQOI 2011]动态逆序对
  • [CUDA 学习笔记] CUDA kernel 的 grid_size 和 block_size 选择
  • [Flexbox] Using order to rearrange flexbox children
  • [leetcode top100] 0924 找到数组中消失的数,合并二叉树,比特位计数,汉明距离
  • [LeetCode] 178. 分数排名
  • [ListView.View=List]的垂直滚动条
  • [luoguP1666] 前缀单词(DP)
  • [NISACTF 2022]level-up
  • [Oh My C++ Diary]内联函数