为什么80%的码农都做不了架构师?>>>
Spark应用提交的一般方式就是,将程序打包成jar包后,再使用spark-submit 进行提交运行。
那么有没有可能 直接用eclipse提交运行spark应用呢?
答案当然是可以的!
本人环境是这样的:有一个spark集群, 一台独立的开发机器运行eclipse
(1) 开发语言scala
(2) 构建工具sbt
开发过程中需要注意一下两点:
(1) 代码编写完成后,使用sbt进行打包。
(2) 在代码中添加以下代码:
(注意:由于我写的是spark streaming程序所以,用的是StreamingContext,该对象中有SparkContext属性)
val ssc = new StreamingContext(sparkConf, Seconds(1))
ssc.sparkContext.addJar("F:\\spark-scala-wordcount-network-assembly-1.0.jar")
该代码的作用是什么呢,其实想象下不难理解,我们要在eclipse下运行spark应用,即driver也是在eclipse下运行,那么具体的分析代码如何传给spark的worker节点呢,所以我们需要将应用代码jar包,通过sparkContext进行上传,从而worker端才能执行。 否则会包NoClassFound异常的。
最后补充一下:
在使用eclipse直接运行spark应用的时候,可能会出现一下异常
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
当出现以上警告信息的时候,那么原因可能是:
(1) SPark资源可能真的不够了,注意添加资源
(2) spark集群中的节点上 没有配置eclipse所在机器域名的IP信息。 需要在各个节点的/etc/hosts配置域名到IP的映射。