`

Liunx搭建Spark开发环境

阅读更多
Liunx搭建Spark开发环境
1.Spark 
2.Spark开发环境搭建
【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java 和Hadoop开发环境,这里也不再赘述
【2】搭建Scala开发环境和SBT开发环境:
       (2.1)下载Scala和SBT安装包:
       Scala官网:http://www.scala-lang.org/
 
 
(2.2)环境安装Scala和Sbt:
Scala安装:
利用Xftp5工具把[scala-2.12.5.tgz]上传到Liunx服务器:/usr/local/scala
利用Xshell5工具登录到服务器,并进入到/usr/local/scala目录解压Scala,输入:tar -xvf  scala-2.12.5.tgz
Last login: Sat Apr  7 07:22:36 2018 from 192.168.3.4
[root@marklin ~]# cd /usr/local/scala
[root@marklin scala]# ll
total 19832
-rw-r--r--. 1 root root 20303983 Apr  7 10:10 scala-2.12.5.tgz
[root@marklin scala]# tar -xvf  scala-2.12.5.tgz
 
 
配置环境变量,输入:vim  /etc/profile
#Setting SCALA_HOME PATH
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export PATH=${PATH}:${SCALA_HOME}/bin
 
输入:source /etc/profile使得环境变量生效
 
【3】官网下载【http://spark.apache.org/】安装包:spark-2.3.0-bin-hadoop2.7.tgz
 
【4】把安装包:spark-2.3.0-bin-hadoop2.7.tgz上传到:/usr/local/spark
 
【5】进入到:/usr/local/spark,解压spark-2.3.0-bin-hadoop2.7.tgz,输入:tar -xvf  spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin scala]# cd /usr/local/spark
[root@marklin spark]# ll
total 220832
-rw-r--r--. 1 root root 226128401 Apr  7 10:38 spark-2.3.0-bin-hadoop2.7.tgz
[root@marklin spark]# tar -xvf  spark-2.3.0-bin-hadoop2.7.tgz
 
 
【6】配置环境变量:vim  /etc/profile
#Setting SPARK_HOME PATH
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export PATH=${PATH}:${SPARK_HOME}/bin
 
输入:source /etc/profile使得环境变量生效
 
【7】修改配置文件:
  进入到:cd /usr/local/spark/spark-2.3.0/conf,修改Spark conf目录下的slaves文件,
 修改前先备份并重命名cp slaves.template slaves,将slaves文件中的localhost修改为主机名,我的是marklin.com:
[root@marklin conf]# cp slaves.template slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778  996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rw-r--r--. 1 root       root        865 Apr  7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778  865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# chmod +x slaves
[root@marklin conf]# ll
total 40
-rw-r--r--. 1 1311767953 1876110778  996 Feb 22 14:42 docker.properties.template
-rw-r--r--. 1 1311767953 1876110778 1105 Feb 22 14:42 fairscheduler.xml.template
-rw-r--r--. 1 1311767953 1876110778 2025 Feb 22 14:42 log4j.properties.template
-rw-r--r--. 1 1311767953 1876110778 7801 Feb 22 14:42 metrics.properties.template
-rwxr-xr-x. 1 root       root        865 Apr  7 10:54 slaves
-rw-r--r--. 1 1311767953 1876110778  865 Feb 22 14:42 slaves.template
-rw-r--r--. 1 1311767953 1876110778 1292 Feb 22 14:42 spark-defaults.conf.template
-rwxr-xr-x. 1 1311767953 1876110778 4221 Feb 22 14:42 spark-env.sh.template
[root@marklin conf]# vim slaves
[root@marklin conf]#
 
 
修改spark-env.sh文件:修改前先备份并重命名cp spark-env.sh.tempalte spark-env.sh
[root@marklin conf]# cp spark-env.sh.template spark-env.sh
[root@marklin conf]#
 
然后打开spark-env.sh文件,追加内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.5
export SCALA_HOME=/usr/local/scala/scala-2.12.5
export SPARK_HOME=/usr/local/spark/spark-2.3.0
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export SPARK_LOCAL_IP=marklin.com
export SPARK_MASTER_HOST=marklin.com
export SPARK_WORKER_MEMORY=512M
export SPARK_CONF_DIR=${SPARK_HOME}/conf
export SPARK_LOG_DIR=/usr/local/spark/repository/logs
export SPARK_PID_DIR=/usr/local/spark/repository/pids
export SPARK_LIBARY_PATH=.:${JAVA_HOME}/lib:${JAVA_HOME}/jre/lib:${HADOOP_HOME}/lib/native
export SPARK_WORKER_DIR=/usr/local/spark/repository/worker
export SPARK_MASTER_PORT=8188
export SPARK_MASTER_WEBUI_PORT=8180
export SPARK_WORKER_PORT=8181
export SPARK_WORKER_WEBUI_PORT=8182
 
开放端口:
[root@marklin ~]# systemctl start firewalld.service
[root@marklin ~]# firewall-cmd --zone=public --add-port=8180/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8188/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8181/tcp --permanent
success
[root@marklin ~]# firewall-cmd --zone=public --add-port=8182/tcp --permanent
success
[root@marklin ~]# firewall-cmd --reload
success
[root@marklin ~]# systemctl stop firewalld.service
[root@marklin ~]#
 
 
【8】启动测试
进入到:cd /usr/local/spark/spark-2.3.0/sbin ,输入:start-master.sh
[root@marklin sbin]# start-master.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/repository/logs/spark-root-org.apache.spark.deploy.master.Master-1-marklin.com.out
 
输入:http://192.168.3.4:8180/#running-app
 
输入:cd bin ,输入:spark-shell
[root@marklin sbin]# cd ..
[root@marklin spark-2.3.0]# cd bin
[root@marklin bin]# spark-shell
2018-04-07 11:43:08 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://marklin.com:4040
Spark context available as 'sc' (master = local[*], app id = local-1523115824100).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_162)
Type in expressions to have them evaluated.
Type :help for more information.
 
scala>
 
 
分享到:
评论

相关推荐

    Spark开发及本地环境搭建指南

    Spark入门文档,来源于Linux公社

    PyCharm搭建Spark开发环境实现第一个pyspark程序

    一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个...

    spark安装

    Spark开发环境搭建.pdf

    hadoop2.7.4 spark2.2.1 最新版本环境搭建

    虚拟机3台服务器搭建集群环境,使用jdk1.8 ,最新的hadoop2.7.4 ,spark2.21。 提供给需要学习环境搭建人员的一点文档参考。 只是基础的环境搭建,不涉及具体开发技术逻辑,请选择下载。(ps:资源分最少只能选择2分...

    非常好的大数据入门目资源,分享出来.zip

    大数据 大数据学习路线 大数据技术栈思维导图 ...Spark 开发环境搭建 弹性式数据集 RDD RDD 常用算子详解 Spark 运行模式与作业提交 Spark 累加器与广播变量 基于 Zookeeper 搭建 Spark 高可用集群 Spark SQL :

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    Spark开发环境搭建 弹性式数据集 RDD RDD使用算子详解 Spark运行模式与作业提交 Spark 累加器与广播信号 基于Zookeeper搭建Spark高可用服务 火花 SQL: 日期帧和数据集 结构化API的基本使用 Spark SQL 外部数据源 ...

    spark 高级数据分析 高清 书签

    在Linux搭建基本的执行环境;Spark的基本使用,如spark-shell。 《深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与...

    spark从入门到实战

    3.SCALA环境搭建及IDEA安装配置(JAVA安装、SCALA安装及IDEA安装)) 4.SCALA语言HelloWorld及安装总结(作业LINUX系统安装) 5.SCALA中变量的声明(两种方式) 6.SCALA中数据类型及操作符 7.IF语句及WHILE循环、...

    深入理解Spark 核心思想与源码分析

    在Linux搭建基本的执行环境;Spark的基本使用,如spark-shell。 《深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与...

    Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

    开发环境搭建 Data Source Data Transformation Data Sink 窗口模型 状态管理与检查点机制 Standalone 集群部署 六、HBase 简介 系统架构及数据结构 基本环境搭建 集群环境搭建 常用 Shell 命令 Java API 过滤器详解...

    基于Spark的电影推荐系统.rar

    开发环境:IntelliJ IDEA + maven + git + linux + powerdesigner 软件架构:mysql + mybatis + spring + springmvc 项目描述:懂你电影推荐网站是一个基于SSM框架的web项目,类似当前比较流行的豆瓣。用户可以在...

    News_recommend:基于Spark的新闻推荐系统,包含爬虫项目、web网站以及spark推荐系统

    新闻网站:开发环境:IntelliJ IDEA + maven + git + linux软件架构:mysql + springboot项目描述:今日小站是基于springboot框架搭建的web项目,用户在网站完成注册登录后,网站会记录用户的浏览行为。同时网站也会...

    java8stream源码-Learning-Spark:学习Spark的代码,关于SparkCore、SparkSQL、SparkStrea

    开发环境 基于Deepin Linux 15.9版本 基于Hadoop2.6、Spark2.4、Scala2.11、java8等 系列环境搭建相关文章,见下方 更多内容见:【 】【 】 文件说明 存放平时练习代码 notes存放笔记 Scala 语法点 待续

    Linux下远程连接Jupyter+pyspark部署教程

    博主最近试在服务器上进行spark编程,因此,在开始编程作业之前,要先搭建一个便利的编程环境,这样才能做到舒心地开发。本文主要有以下内容: 1、python多版本管理利器-pythonbrew 2、Jupyter notebooks 安装与...

    尚gg大数据项目实战电商数仓系统开发教程.txt

    46_数仓采集_面试题(Linux、Shell、Hadoop).avi2 R" A6 R7 D' p9 h( i. \ I" F9 w 47_数仓采集_面试题(Flume、Kafka).avi& A1 w0 W) S1 ~# i& n, } ~6 o( b& o 48_用户行为数仓_每日回顾.avi% U( @. v7 D* C* B ...

Global site tag (gtag.js) - Google Analytics