当前位置: 首页 > news >正文

【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)

简介

 

注意:

在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版本,考虑兼容问题。比如hadoop3.0以上的才兼容spark3.0以上的。

下面是Hadoop集群部署的链接,个人笔记,已经成功部署两次了,实时更新,分【一】【二】两部分,需要的自己看。不懂欢迎问,看到了解答。(链接失效的话请参考个人主页)

hadoop集群部署【一】HDFS集群icon-default.png?t=N7T8http://t.csdnimg.cn/BVKlqhadoop集群部署【二】YARN,MapReduce集群icon-default.png?t=N7T8http://t.csdnimg.cn/aJJt7

 搭建准备工作:

需要python环境,上传Anaconda,找到放置的位置。

安装Anaconda

在node1(我的第一台机器名)安装Anaconda(我的是Anaconda3-2021.05-Linux-x86_64.sh         版本python3.8)

sh ./Anaconda3-2021.05-Linux-x86_64.sh

然后一直空格,出现[yes|no] 就回答yes,懂?

出现这样的就填你要把anaconda安装到哪里。(路径)

完成后结果(退出终端,重新进来)

更改conda国内源

vim ~/.condarc(新建的,一般里面没东西)

channels:- defaults
show_channel_urls: true
default_channels:- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmsys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudbioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmenpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudpytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudsimpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

终端输入 

python

 创建spark运行的虚拟环境

conda create -n pyspark python=3.8
 切换虚拟环境
conda activate pyspark

 

Spark Local部署

上传解压spark

(我的是 spark-3.2.0-bin-hadoop3.2.tgz)

通过什么工具不管,能上传就行。

找到spark上传的位置,cd 进到该目录,不进去也行,自己在前面加路径哈!解压。

 tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server spark-3.2.0-bin-hadoop3.2/

-C 参数后跟解压到哪(路径)

cd /export/server    #填你自己解压的路径

 建立软链接

 ln -s spark-3.2.0-bin-hadoop3.2/ spark
ll

 配置环境变量

vim /etc/profile

export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
:wq
source /etc/profile
vim /root/.bashrc

添加 

export JAVA_HOME=/export/server/jdk
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
:wq

启动spark local模式

pyspark

进入spark的bin路径下

cd /export/server/spark/bin  # 注意路径
./pyspark

 运行下面代码,结果参考上图

sc.parallelize([1,2,3,4,5]).map(lambda x:x *10).collect()

可以通过游览器输入node1:4040查看监控页面(多个进程不会起冲突,具体监控页面的端口看上图spark版本下面第二行)

Ctrl+d退出

scala交互式界面
./spark-shell

 Ctrl+d退出

提交python文件(参考spark自带的案例文件pi.py    求圆周率,参数10 迭代十次)
./spark-submit --master local[*] /export/server/spark/examples/src/main/python/pi.py 10

 提交文件没有监控界面

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 代码随想录算法训练营第十六天
  • android13 禁用wifi
  • 【单片机】51单片机入门教程(一):深入理解普通IO口与外部中断
  • 哪些平台和市场备受大卖们青睐?今年第二季度热门平台排行
  • C语言的结构体在内存中是如何存放的?
  • [Spring] Spring事务与事务的传播
  • 以下关于revision历史版本说法正确的是:
  • C语言-使用指针数组作为函数参数,实现对10个字符串进行排序
  • 海南云亿商务咨询有限公司引领抖音电商新潮流
  • 如何高效记录并整理编程学习笔记
  • rsync远程同步服务
  • SpringBoot解决创建项目无法选择JDK8和JDK11
  • 互斥锁以及进程间通信
  • 无人机之飞控系统基本功能
  • 遗传算法与深度学习实战(4)——遗传算法详解与实现
  • 《Java编程思想》读书笔记-对象导论
  • 2017-08-04 前端日报
  • CSS魔法堂:Absolute Positioning就这个样
  • css属性的继承、初识值、计算值、当前值、应用值
  • github指令
  • Java,console输出实时的转向GUI textbox
  • JavaScript创建对象的四种方式
  • JavaScript异步流程控制的前世今生
  • js 实现textarea输入字数提示
  • Js实现点击查看全文(类似今日头条、知乎日报效果)
  • PhantomJS 安装
  • quasar-framework cnodejs社区
  • Transformer-XL: Unleashing the Potential of Attention Models
  • 产品三维模型在线预览
  • 创建一种深思熟虑的文化
  • 从0搭建SpringBoot的HelloWorld -- Java版本
  • 番外篇1:在Windows环境下安装JDK
  • 关于Flux,Vuex,Redux的思考
  • 携程小程序初体验
  • 因为阿里,他们成了“杭漂”
  • 再谈express与koa的对比
  • AI又要和人类“对打”,Deepmind宣布《星战Ⅱ》即将开始 ...
  • ​【已解决】npm install​卡主不动的情况
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • #14vue3生成表单并跳转到外部地址的方式
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • #快捷键# 大学四年我常用的软件快捷键大全,教你成为电脑高手!!
  • (1)Hilt的基本概念和使用
  • (39)STM32——FLASH闪存
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (回溯) LeetCode 131. 分割回文串
  • (篇九)MySQL常用内置函数
  • (生成器)yield与(迭代器)generator
  • (四) Graphivz 颜色选择
  • (转)ObjectiveC 深浅拷贝学习
  • .Net - 类的介绍
  • .net core 6 集成 elasticsearch 并 使用分词器
  • .NET/C# 使窗口永不获得焦点
  • .Net开发笔记(二十)创建一个需要授权的第三方组件
  • .Net小白的大学四年,内含面经