Spark任务提交jar包依赖解决方案 -

kavy

浏览: 870335 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Spark任务提交jar包依赖解决方案

博客分类：

大数据

http://blog.csdn.net/wzq294328238/article/details/48054525

通常我们将Spark任务编写后打包成jar包，使用spark-submit进行提交，因为spark是分布式任务，如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。
下面有三个解决方法：

方法一：spark-submit –jars

根据spark官网，在提交任务的时候指定–jars，用逗号分开。这样做的缺点是每次都要指定jar包，如果jar包少的话可以这么做，但是如果多的话会很麻烦。

spark-submit --master yarn-client --jars ***.jar,***.jar(你的jar包，用逗号分隔) mysparksubmit.jar

如果你使用了sbt的话，并且在build.sbt中配置好了依赖并下载完成，那么你可以直接去用户home目录下的.ivy/cache/中拷贝你的jar需要的jar包

方法二：extraClassPath

提交时在spark-default中设定参数，将所有需要的jar包考到一个文件里，然后在参数中指定该目录就可以了，较上一个方便很多：

spark.executor.extraClassPath=/home/hadoop/wzq_workspace/lib/*
spark.driver.extraClassPath=/home/hadoop/wzq_workspace/lib/*

需要注意的是,你要在所有可能运行spark任务的机器上保证该目录存在，并且将jar包考到所有机器上。这样做的好处是提交代码的时候不用再写一长串jar了，缺点是要把所有的jar包都拷一遍。

方法三：sbt-assembly

如果你还是觉得第二种麻烦，这种方法是将所有依赖的jar包包括你写的代码全部打包在一起（fat-jar）。在项目根目录输入sbt，键入plugins，发现assembly并没有默认安装，因此我们要为sbt安装sbt-assembly插件。
在你的项目目录中project/plugins.sbt中添加

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.13.0")

resolvers += Resolver.url("bintray-sbt-plugins", url("http://dl.bintray.com/sbt/sbt-plugin-releases"))(Resolver.ivyStylePatterns)

然后我们再根目录键入sbt，然后使用plugins查看plugins,如果看到有sbtassembly.AssemblePlugin，说明你的插件就安成功了：
这里写图片描述
还要设置下冲突解决，然后再在sbt交互命令行下使用assembly就可以了。这种方法打包后会使得jar包很大。

分享到：

Spark基本工作流程及YARN cluster模式原理 | mysql主从复制

2016-09-26 10:52
浏览 2003
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark任务提交jar包依赖解决方案

方法一：spark-submit –jars

方法二：extraClassPath

方法三：sbt-assembly

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark任务提交jar包依赖解决方案

方法一：spark-submit –jars

方法二：extraClassPath

方法三：sbt-assembly

评论

发表评论

相关推荐

RocksDB数据库简介及使用分享

你用过Excel，却不知还有一款神器“FineReport”

Redis底部的几种存储结构（sds、dict、ziplist、intset、skiplist）

Structured Streaming + Kafka 集成 + Redis管理Offset（Kafka broker version 0.10.0 or h

LibSVM文件转换为csv格式

生成libSVM的数据格式及使用方法总结

hadoop、hbase、spark环境变量配置

本地文件上传hadoop再导入hbase

spark 将DataFrame所有的列类型改为double

spark– 如何定义DataFrame的分区？

Spark 创建RDD、DataFrame各种情况的默认分区数

spark的JDBC连接池（Scala版）

Spark中foreachRDD、foreachPartition和foreach

Spark读写Phoenix

HBase读写的几种方式（三）flink篇

HBase读写的几种方式（一）java篇

HBase读写的几种方式（二）spark篇

Hive教程

StructuredStreaming消费kafka的数据案例

理解Spark中Job-Stage-Task之间的关系

最近访客更多访客>>