当前位置: 首页 > news >正文

不想搭集群,直接用spark

   为了完成布置的作业,需要用到spark的本地模式,根本用不到集群,就不想搭建虚拟机,hadoop集群啥的,很繁琐,最后写作业还用不到集群(感觉搭建集群对于我完成作业来说没有什么意义),所以才想办法在windows环境下,直接安装jdk、scala、spark等,使用spark的本地模式来写作业

步骤:

1. 安装jdk

检查了,发现我自己电脑(windows)上已经安装过jdk了,环境变量也配置好了,

path路径中也设置好了jdk的路径 

2. 下载安装scala

检查自己电脑上有没有安装scala

很好,没有安装scala,那就从官网上下载2.11.12版本,官网:

The Scala Programming Language (scala-lang.org)

路径是在E盘下:

配置环境变量:

进入cmd,scala的路径下,输入scala,如下图所示,即为成功安装scala

3. 下载maven

maven已经下载好了,新建一个文件夹Localwarehouse,用来保存下载的依赖文件

配置maven的系统环境配置

cmd下验证,已经成功

配置maven: 记得修改完文件之后保存!

继续添加如下代码用来配置jdk版本

4. 验证idea是否安装好了

输出hello world 证明安装成功

idea的一些使用方法:

  1. 字体设置:file–>settings–>输入font–>设置字体样式以及字号大小;

  2. 快捷生产main方法:psvm;

  3. 快速生产System.out.println():sout;

  4. 删除一行:选中需要删除的那一行,ctrl+y;

5. 将maven加载到idea中

 6. 安装scala插件

由于我的idea在plugins里搜索不到scala插件,所以可以官网上下载跟自己idea版本对应的scala插件,在idea安装目录下的plugins下,然后重启idea,就可以搜索到scala插件已经安装上了。

7.下载安装hadoop

Index of apache-local/hadoop/core/hadoop-3.2.2icon-default.png?t=N7T8https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.2.2/环境变量配置好后,执行 hadoop version 出现以下异常

 解决办法:

 都修改完之后,执行hadoop version成功

8.Spark 安装和配置 

安装的是3.0.2的版本

下载地址:

https://archive.apache.org/dist/spark/spark-3.0.2/

解压spark安装包,解压到E:\spark-3.0.2-bin-hadoop3.2

在系统环境变量中添加SPARK_HOME,并SPARK_HOME添加到系统环境变量的Path中。

cmd中执行spark-shell,出现如下警告

解决办法:

 到这里 GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows 下载和你的 Hadoop 版本对应的工具所在的整个目录,比如 hadoop-3.2.0

把下载的文件中的 winutils.exe 拷贝到上述文件夹中

重新运行spark-shell,执行成功

 可通过http://DESKTOP-O202EN9:4040来查看web UI界面

9. idea里配置spark

新建maven项目、配置pom.xml文件等主要参考的是:

在IDEA运行spark程序(搭建Spark开发环境)_idea spark-CSDN博客

在这里声明一下我所用的版本都是多少,在我解决bug的过程中,这里边多少存在一些版本不对应的问题:

scala版本:2.11.12

hadoop的下载的包是:hadoop-3.2.2.tar.gz

spark下载的包是:spark-3.0.2-bin-hadoop3.2.tgz

maven的版本是:apache-maven-3.8.3

pom文件中的版本依赖如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>TestDemo1</groupId><artifactId>TestDemo1</artifactId><version>1.0-SNAPSHOT</version><properties><!-- 声明scala的版本 --><scala.version>2.11.12</scala.version><!-- 声明linux集群搭建的spark版本,如果没有搭建则不用写 --><!-- <spark.version>3.2.1</spark.version> --><!-- 声明linux集群搭建的Hadoop版本 ,如果没有搭建则不用写--><!-- <hadoop.version>3.1.4</hadoop.version>--></properties><dependencies><!--scala--><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>${scala.version}</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.4.5</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.4.5</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2.4.5</version><scope>provided</scope></dependency></dependencies></project>

运行上个参考的博客里的WordCount程序的运行结果:

(注意:words.txt的路径我写了绝对路径,可以保证不出错,还有就是,是words.txt不是word.txt,word是有一个s 的,大家一定要注意,要不然会出现找不到路径下文件的错误,我解决了好久才发现是我文件名字没加s,呜呜呜~~白浪费了我那么多时间去解决这个Bug)

相关文章:

  • 代码随想录-Day36
  • 【SPIE独立出版 | 往届均已完成EI检索】2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024)
  • 【数学建模】——【新手小白到国奖选手】——【学习路线】
  • Day1:基础语法
  • Flask request 中获取访问的ip
  • 后端高频面试题分享-用Java判断一个列表是否是另一个列表的顺序子集
  • Qt MaintenanceTool.exe使用镜像源更新Qt
  • 令人震撼的人类智慧的科学领域-AI技术
  • 【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 内存访问热度分析(100分) - 三语言AC题解(Python/Java/Cpp)
  • Electron+vite+vuetify项目搭建
  • 在php中的序列化与反序列化
  • 【elementui源码解析】如何实现自动渲染md文档-第三篇
  • 【服务器04】之【Navicat连接阿里云】
  • 上网行为管理系统是干什么的?4款高人气上网管理软件盘点
  • Python联动Mysql
  • 2017届校招提前批面试回顾
  • canvas绘制圆角头像
  • hadoop集群管理系统搭建规划说明
  • Hibernate【inverse和cascade属性】知识要点
  • Koa2 之文件上传下载
  • LeetCode算法系列_0891_子序列宽度之和
  • 番外篇1:在Windows环境下安装JDK
  • 工作中总结前端开发流程--vue项目
  • 欢迎参加第二届中国游戏开发者大会
  • 开发了一款写作软件(OSX,Windows),附带Electron开发指南
  • 批量截取pdf文件
  • 赢得Docker挑战最佳实践
  • 继 XDL 之后,阿里妈妈开源大规模分布式图表征学习框架 Euler ...
  • ​【已解决】npm install​卡主不动的情况
  • ​如何在iOS手机上查看应用日志
  • # Redis 入门到精通(一)数据类型(4)
  • #控制台大学课堂点名问题_课堂随机点名
  • #面试系列-腾讯后端一面
  • (20)docke容器
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (39)STM32——FLASH闪存
  • (6)STL算法之转换
  • (Note)C++中的继承方式
  • (python)数据结构---字典
  • (搬运以学习)flask 上下文的实现
  • (六)Flink 窗口计算
  • (转) RFS+AutoItLibrary测试web对话框
  • (转)大道至简,职场上做人做事做管理
  • (轉貼) 資訊相關科系畢業的學生,未來會是什麼樣子?(Misc)
  • (最优化理论与方法)第二章最优化所需基础知识-第三节:重要凸集举例
  • .Net 6.0 处理跨域的方式
  • .NET Core中的时区转换问题
  • .NET WPF 抖动动画
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .Net实现SCrypt Hash加密
  • @antv/g6 业务场景:流程图
  • @EnableWebMvc介绍和使用详细demo
  • @JsonSerialize注解的使用
  • []利用定点式具实现:文件读取,完成不同进制之间的
  • [<MySQL优化总结>]