spark单节点local安装:
1.解压包:
scala-2.10.4.tgz
scala-intellij-bin-0.38.437.zip
spark-0.9.1-bin-hadoop1.tgz
2.配置/etc/profile
3.直接输入scala如果进入scala界面表示安装成功
4.如果是集群就要配置/etc/hosts
5.到spark/conf下面配置spark-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_32
export SPARK_MASTER_IP=127.0.0.1(配置hosts中配置的主机名)
export SPARK_MASTER_PORT=8888
export SPARK_MASTER_MEMORY=128M
export SPARK_WORKER_CORES=1
6.到sbin目录启动./start-all.sh
spark分布式集群Standalone安装:
1.app/mkdir spark
2.解压3个文件
Zip:unzip 文件名
Tar:tar –xvf文件名
3.到spark下的conf目录
4.mv spark-env.sh.template spark-env.sh
5.vi spark-env.sh
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export JAVA_HOME=/home/hadoop/java/jdk1.7.0_17
export SPARK_MASTER_IP=hbase01
export SPARK_WORKER_INSTANCES=3
export SPARK_MASTER_PORT=8070
export SPARK_MASTER_WEBUI_PORT=8090
export SPARK_WORKER_PORT=8092
export SPARK_WORKER_MEMORY=500m
6.vi slaves添加内容如下:
hbase01
hbase02
hbase03
7.vi /etc/profile ,添加内容如下:
export SPARK_HOME=/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1
export PATH=$SPARK_HOME/bin:$PATH
8.source /etc/profile
9.各个节点间复制:
sudo scp -r /home/hadoop/app/spark hadoop@192.168.1.164:/home/hadoop/app/
10.到spark/sbin/start-all.sh
11.启动web界面:
http://hbase01:8090/
12.配置scala环境变量
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
单词统计代码:
val textFile = sc.textFile("/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1/README.md") textFile.count() textFile.filter(line => line.contains("Spark")).count()
spark-streaming代码:
// 创建StreamingContext,1秒一个批次。 //第一个参数是指定Spark Streaming运行的集群地址 val ssc = new StreamingContext(“Spark://…”, Seconds(1)); // 获得一个DStream负责连接 监听端口:地址 val lines = ssc.socketTextStream(serverIP, serverPort); // 对每一行数据执行Split操作 val words = lines.flatMap(_.split(" ")); // 统计word的数量 val pairs = words.map(word => (word, 1)); val wordCounts = pairs.reduceByKey(_ + _); // 输出结果 wordCounts.svaeastextfile; ssc.start(); // 开始 ssc.awaitTermination(); // 计算完毕退出
相关推荐
spark安装部署手册
spark安装部署.doc
Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署Spark生态和安装部署
1. 解压Spark安装包 2. 配置Spark环境变量 2. 修改 spark-env.sh 文件,完成以下设置: 1. 设置运行master进程的节点, e
Ambari Hadoop & Spark安装部署文档,Ambari在线安装与问题解决
本资源从简介到开发,详细讲解了spark集群构建和初步开发,适合初学spark的或者学习了hadoop的,希望对大家有帮助。^_^
Spark支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群。
1. 解压Spark安装包 2. 配置Hadoop生态组件相关环境变量 2. 在 master 节点上,关闭HDFS的安全模式: 3. 在 master 节点上
2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....
本文档主要是spark组件部署。欢迎大家关注数据科学,本人不断为大家提供数据科学相关知识,如有疑问请随时沟通不断优化
SPARK入门教程,主要介绍spark生态圈、平台部署,hive,实时流计算,机器学习库等
5、资源价值:大数据组件搭建的详细实践步骤、一次性提供较全面的常用大数据集群及组件安装部署内容、资源是博主结合官网文档+网上各类搭建文档+本人亲自实践后总结整合的文档(包括过程踩坑记录+对应解决方案)。
2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....
Spark分布式集群安装部署 .doc
描述了spark1.2.1在standalone集群模式和on yarn集群模式下的部署与运行方式。
第1章 安装VMWare Workstation 10;第2章 VMware 10安装CentOS 6;第3章 CentOS 6安装Hadoop;第4章 安装部署Spark;第5章Spark上机操作;第6章 开发Spark分布式程序
Hadoop与Spark所有系统组件部署手册
资源是Spark 在yarn模式上的部署的spark安装包(spark-2.4.7-bin-hadoop2.7.tgz),以及安装部署的文档
spark-炼数成金讲义