2016/06/16更新
windows环境下需要额外下载winutils
1.环境
首先要注意不同版本的spark需要不同版本的scala,python。
我这里试验成功的版本如下:
Windows 7
JDK 1.7.0_72
scala 2.10.5
python 2.7.8
spark 1.4.1
winutils
2.下载
2.1 下载spark+hadoop
去
官网下载
选择如下
Choose a Spark release: 1.4.1
Choose a package type: pre-built for hadoop 2.6 and later
Choose a download type:随意
Download Spark: spark-1.4.1-bin-hadoop2.6.tgz
下载完解压。
2.2 下载winutils,hadoop.dll
另外要在windows上成功运行,需要下载
winutils
(文末附件也有下载)
将winutils.exe,hadoop.dll复制到spark-1.4.1-bin-hadoop2.6\bin目录下。
设置环境变量HADOOP_HOME = spark-1.4.1-bin-hadoop2.6根目录
3.shell测试
以下shell会输出部分错误信息,但不影响主要功能。
3.1 python shell
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\pyspark
>>>
lines = sc.textFile("README.md")
>>>
lines.count()
[Stage 0:> (0 + 2) / 2]
98
>>>
lines.first()
u'# Apache Spark'
>>>
3.2 scala shell
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\spark-shell
scala>
val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21
scala>
lines.count()
res0: Long = 98
scala>
lines.first()
res1: String = # Apache Spark
scala>
3.3 查看SparkUI
以上2种shell任意打开一种,然后浏览http://localhost:4040即可。
4. 例子程序——PI计算
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\run-example org.apache.spark.examples.SparkPi
16/06/16 15:42:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
[Stage 0:> (0 + 2) / 2]
[Stage 0:=============================> (1 + 1) / 2]
Pi is roughly 3.1416
5. 可独立运行的java程序
《Learning Spark》一书的源码
https://github.com/databricks/learning-spark
编译以后运行
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\spark-submit --class com.oreilly.learningsparkexamples.java.WordCount ./java-0.0.2.jar local ./README.md ./wordCount.txt
16/06/30 16:48:54 WARN SparkConf: null jar passed to SparkContext constructor
16/06/30 16:48:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
结果在spark根目录下生成了wordCount.txt文件夹,里面有WordCount结果。
分享到:
相关推荐
1. 解压Spark安装包 2. 配置Spark环境变量 2. 修改 spark-env.sh 文件,完成以下设置: 1. 设置运行master进程的节点, e
1. 解压Spark安装包 2. 配置Hadoop生态组件相关环境变量 2. 在 master 节点上,关闭HDFS的安全模式: 3. 在 master 节点上
实验八、Spark的安装与使用.doc
第1章 安装VMWare Workstation 10;第2章 VMware 10安装CentOS 6;第3章 CentOS 6安装Hadoop;第4章 安装部署Spark;第5章Spark上机操作;第6章 开发Spark分布式程序
Spark的介绍,spark的安装配置,认识spark,spark的特点
Spark standalone 单机版部署,看了网上很多方法,事实证明都是错误的,本人亲身经历,在导师的指导下,成功配置成功单机版。
单独搭建spark2.0,和spark1.3共存,适用于新老spark版本共存的情况
Linux安装Spark集群 Spark可以在只安装了JDK、scala的机器上直接单机安装,但是这样的话只能使用单机模式运行不涉及分布式运算和分布式存储的代码,例如可以单机安装Spark,单机运行计算圆周率的Spark程序。...
Spark支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群。
这是我根据自己的经验,一步步写的,写的比较完整哦,希望能帮到各位小伙伴
在自己的机器上配置spark的本地开发模式,可以用来测试spark代码是否正确,如果没问题,可以提交到spark集群上去运行,免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建,所以就...
完整的spark安装指南,包含shell命令和步骤图片。
spark安装部署手册
适合大数据分析初学者,安装大数据分析工具spark,python语言测试(保姆级教学)。
spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解
这是我在centos7上安装hadoop单机版,和spark单机版的详细步骤,全是我自己确定能用才写好的笔记,还有一些centos7的操作,如NFS共享文件,ssh无秘登陆的详细步骤,全都做好了详细的笔记,且保证能用的。
单机伪分布式Hadoop-spark配置
hdfs+spark安装指南
描述了spark1.2.1在standalone集群模式和on yarn集群模式下的部署与运行方式。
spark2.1集群安装