`
功夫小当家
  • 浏览: 183899 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - 部署和安装

阅读更多

本地环境:

  • hadoop3.0
  • spark2.3

注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1 和 hd1) ,不影响实际结果,下面的配置依然是正确的,实际测试中以自己的hostname,spark版本为准!

 

 

1.下载,解压

 

2.目录结构

bin:本地脚本

sbin:服务端脚本

conf:配置文件

examples:样例代码

jars:依赖包(1.x是在lib目录,很少的几个大包, 2.x是在jars目录下,很多个小包)



 

1.x的lib目录

 

2.x的jars目录


 

 

3.local模式(测试用):

    不用改任何配置,不用启动任何进程(开箱即用)

./spark-shell --master local[2] --name test

 

 

log4j在conf目录下,可以调节log级别,默认info级别


 

(4)standlone模式(spark集群,master/slave主从模式)

    修改conf下的spark-env.sh

export SCALA_HOME=/DATA/sdb/scala-2.11.8
export JAVA_HOME=/etc/alternatives/java_sdk_1.8.0
export SPARK_MASTER_IP=hdp1
export SPARK_WORKER_CORES=31
export SPARK_WORKER_MEMORY=120g
export HADOOP_CONF_DIR=/DATA/sdb/hadoop-3.0.0/etc/hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

 

    修改slaves文件(hosts写上去)

hdp1
hdp2
hdp3

    

    启动

./sbin/start-all.sh

 

    jps查看有worker和master两个进程


 

    web ui是在8080



 

    这个模式,修改配置文件需要同步到其他节点

 

(5)spark on yarn模式

  • 不需要启动任何进程
  • 只是把spark作为作业提交的客户端而已
  • 修改配置文件不需要同步到其他节点
  • yarn的Resource Manager 和 Node Manager 要先启动起来
  • spark on yarn是把作业提交到yarn上运行
  • 只在1到2台机器上部署spark即可
  • 所有运行调度交给yarn,通过Resource Manager申请资源,然后再NodeManager上启动container,把spark作业泡在yarn的NodeManager上的container里

    启动命令

./spark-shell  --master yarn

 

    注意:

  • 需要配置hadoop_conf_dir或yarn_conf_dir(否则报错)
  • lib下放mysql驱动包,使用mysql做数据源
  • spark.yarn.jars或spark.yarn.archive需要配置,避免每次都上传jar包到集群

(6)参数

--jars 指定依赖包

 

(7)spark.yarn.jars配置

在spark-defaults.conf文件里添加下面参数,注意一定要写 /* ,不是 /(如果写/,会启动失败,具体如下图)

spark.yarn.jars hdfs://hd1:9000/jars/*


 

验证参数效果:启动 spark-sql --master yarn

<1>不设置这个参数,分析日志,发现会上传两个zip包,一个是conf,一个是libs

下载日志中的libs zip包hdfs://hd1:9000/user/root/.sparkStaging/application_1521429219577_0032/__spark_libs__2446030819495419882.zip 

本地解压后,查看目录里的jar包,和spark目录下的jars完全一致(210个包)


 

 

<2>设置这个参数,分析日志,只会上传一个conf的zip包(2.x版本和1.x版本配置后,日志的输出内容不太一样

 

  • 大小: 22.3 KB
  • 大小: 18.5 KB
  • 大小: 73.3 KB
  • 大小: 17.2 KB
  • 大小: 80.5 KB
  • 大小: 12.9 KB
  • 大小: 57.2 KB
  • 大小: 101.8 KB
  • 大小: 51.9 KB
  • 大小: 66.1 KB
  • 大小: 47.4 KB
分享到:
评论

相关推荐

    2.Spark编译与部署(下)--Spark编译安装.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    spark-1.6.0-bin-hadoop2.4.tgz

    spark部署搭建的安装包,spark-1.6.0-bin-hadoop2.4.tgz,需要的朋友可以下载使用

    spark-jobserver安装文档

    spark-jobserver安装文档

    Spark生态和安装部署

    Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署

    2.Spark编译与部署(中)--Hadoop编译安装.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    Spark实验:Standalone模式安装部署(带答案)1

    1. 解压Spark安装包 2. 配置Spark环境变量 2. 修改 spark-env.sh 文件,完成以下设置: 1. 设置运行master进程的节点, e

    Spark-2.3.1源码解读

    Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions那些事 高效使用mappartitions standalone模式下executor调度策略 Spark Sql源码阅读 Spark Sql源码阅读 hive on ...

    spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

    spark开箱即用,将压缩包上传到Linux即可使用命令行指令操作spark。若要部署Spark的集群模式请访问小弟的主页。

    spark-环境部署实验

    配置spark环境,运行测试,信息过滤,遇到的问题总结

    spark安装部署手册

    spark安装部署手册

    Spark2.3.0-Hadoop2.7.4集群部署

    详细介绍Spark2.3.0和Hadoop2.7.4集群在RedHat服务器部署,内涵hadoop 基于NFS 的HA高可用模式, yarn HA高可用, zookeeper安装,spark集群部署,NFS目录创建。对相关参数有详细介绍,以及提供了涉及到的Linux命令...

    spark-2.3.1源码包

    spark2.3.1源码包官网给了两种编译方式,个人喜欢打包的方式,因为打包完成后可以根据自己的需要去部署spark环境,所以也推荐打包编译方式

    Spark编译与部署(中)--Hadoop编译安装

    Spark编译与部署(中)--Hadoop编译安装

    Ansible-ansible-spark-cluster.zip

    Ansible-ansible-spark-cluster.zip,安装spark独立集群(hdfs/spark/jupyter笔记本)或基于ambari的spark集群的ansible角色此存储库定义了多个ansible角色以帮助部署spark集群的不同模式,ansible是一个简单而强大的...

    2.Spark编译与部署(上)--基础环境搭建.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    8.SparkMLlib(下)--SparkMLlib实战.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    大数据Spark入门到精通v3.0版

    013 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作.avi 015 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务.avi 019 - Spark框架 - 核心组件 - 介绍.avi 020 - Spark框架 - 核心概念 - Executor ...

    spline-spark-agent:适用于Apache Spark的样条线代理

    Spark命令支持最新的代理支持以下数据格式和提供程序: 阿夫罗卡桑德拉科宝三角洲弹性搜索电子表格HDFS 蜂巢JDBC 卡夫卡MongoDB的XML格式尽管Spark作为一种可扩展的软件可以支持更多功能,但是它没有提供Spline

Global site tag (gtag.js) - Google Analytics