tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz
mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0
wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz
tar -zxvf scala-2.9.3.tgz
sudo vi /etc/profile
增加:
export SCALA_HOME=/home/ysc/scala-2.9.3
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile
cd spark-0.8.0(spark命令和hadoop命令重名,不加入path)
cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/slaves
修改localhost为host001
vi conf/spark-env.sh
增加:
JAVA_HOME=/home/ysc/jdk1.7.0_40
SCALA_HOME=/home/ysc/scala-2.9.3
SPARK_WORKER_INSTANCES=2
启动服务:
bin/start-all.sh
WEB界面:
Spark Master :http://host001:8080/
Spark Worker :http://host001:8081/
运行例子:
集群运算:
./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077
./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md
本地运算:
./run-example org.apache.spark.examples.JavaSparkPi local[4] (4代表线程数目)
./run-example org.apache.spark.examples.JavaWordCount local[4]README.md
停止服务:
bin/stop-all.sh
相关推荐
spark集群模式,资源调度由自己实现。分布式模式节点,资源调度掌握整个集群的资源。
3.SparkStreaming计算思路 4.入门案例 5.SparkStreaming工作原理 6.DStream及函数 7.集成Kafka 8.案例:百度搜索风云榜(实时ELT、窗口Window和状态State) 9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第...
spark是基于内存的分布式计算框架,计算速度是非常之快,它的出现是解决了海量数据计算慢的问题,并且有很多不同的应用场景。
详细介绍spark的内存管理机制,想要优化spark却无从下手的同行们一定要看看!
Apache Spark 内存管理详解
基于Django2.2+MySQL+spark的在线电影推荐系统源码+说明+数据库(MySQL部分支持在线计算,spark支持离线计算).zip 基于Django2.2+MySQL+spark的在线电影推荐系统源码+说明+数据库(MySQL部分支持在线计算,spark...
Spark是一种快速、通用、可扩展的大数据分析...目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。
包括soalris的硬件内存模型和软件内存模型,是不可多的珍贵资料
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于...
原始用的jetty做的http接口,最近有时间,研究了下spring boot + scala + spark做大数据计算
kylin mapreduce spark cube计算
spark 是基于内存的计算框架,在集群中即使计算10000次pi也很快,这是他的java实现,希望对大家有所帮助
项目名称:基于Spark的PSO并行计算 编程语言:scala 项目内容:将粒子群算法pso实现的了并行,并成功集成了bencmark的测试函数,可以利用该标准的测试函数,来验证算法的性能. 测试结果:在benchmark的20个测试函数当中有9...
表达式计算在Spark SQL中随处可见,本演讲将简介表达式、UDF、UDAF、UDTF的概念,主要的API,以及如何扩展Spark SQL函数库。本演讲还将提及Catalyst在计划阶段和Project Tungsten在执行层做的优化,以及未来性能提升...
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据...
Spark思维导图之内存管理.png
藏经阁-阿里巴巴Spark实践与探索 — 内存计算时代.pdf
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark内存管理和分配