`
reb12345reb
  • 浏览: 47654 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

spark

 
阅读更多

spark 安装 0.8 版本


操作系统Ubuntu 10.04,已经安装JDK 1.7。


1. 下载spark代码
http://spark.incubator.apache.org/downloads.html


2. spark 0.8依赖于scala 2.9.3,安装这个版本的scala。
2.1 下载scala 0.9.3 http://www.scala-lang.org/download/2.9.3.html#Software_Requirements
2.2 解压缩到/usr/local/scala目录下
2.3 在/etc/profile添加一行代码:
    export PATH=$PATH:/usr/local/scala/bin


3. 编译spark
3.1 在~/setup/spark-new/目录下,将spark-0.8.0-incubating.tgz解压缩到目录~/setup/spark-new/spark-0.8.0:
    tar xvf spark-0.8.0-incubating.tgz
3.2 运行sbt进行编译:
                . /etc/profile #更新环境变量
cd ~/setup/spark-new/spark-0.8.0
sbt/sbt assembly
    这个步骤会下载很多库,然后进行编译,编译时间大概会在1个小时左右。


4. 交互式运行
4.1 参考这里:http://spark.incubator.apache.org/docs/latest/quick-start.html
4.2 在运行例子前,如果系统已经安装了Hadoop,所以需要启动了Hadoop,然后把spark的README.md文件复制到HDFS上。
4.3 启动spark shell:
cd /home/brian/setup/spark-new/spark-0.8.0
        ./shark-shell
4.4 按照运行例子,处理README.md文件。


5. 写scala写一个标准的spark app
5.1 创建一个目录~/test
5.2 test目录的内容如下,其中,simple.sbt和SimpleApp.scala是文件,其他都是目录
find .

.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala


5.3 simple.sbt文件内容如下:
name := "Simple Project"
version := "1.0"
scalaVersion := "2.9.3"
libraryDependencies += "org.apache.spark" %% "spark-core" % "0.8.0-incubating"
resolvers += "Akka Repository" at "http://repo.akka.io/releases/"


5.4 SimpleApp.scala文件内容如下:
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object SimpleApp{
    def main(args: Array[String]){
    val logFile = "/home/brian/setup/spark-new/spark-0.8.0/README.md"
val sc = new SparkContext("local", "Simple App",
          "/home/brian/setup/spark-new/spark-0.8.0",
    List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
        val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
        println("Lines with a: %s, lines with b: %s".format(numAs, numBs))
    }
}


5.5 编译:
cd ~/test
~/setup/spark-new/spark-0.8.0/sbt/sbt package
~/setup/spark-new/spark-0.8.0/sbt/sbt run


5.6 运算结果:
Lines with a: 66, lines with b: 35

分享到:
评论

相关推荐

    Spark和TiDB (Spark on TiDB)

    SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现...

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种...

    Spark 入门实战系列

    Spark 入门实战系列,适合初学者,文档包括十部分内容,质量很好,为了感谢文档作者,也为了帮助更多的人入门,传播作者的心血,特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建....

    大数据Spark企业级实战

    《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言...

    Spark经典论文合集

    An Architecture for Fast and General Data Processing on Large Clusters.pdf Discretized Streams An ...Spark SQL Relational Data Processing in Spark.pdf spark.pdf 大型集群上的快速和通用数据处理架构.pdf

    实验七:Spark初级编程实践

    使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-...

    Hadoop原理与技术Spark操作实验

    1. 理解Spark编程思想; 2. 学会在Spark Shell中编写Scala程序; 3. 学会在Spark Shell中运行Scala程序。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)Spark...

    Spark性能调优分享

    我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从...

    基于spark的大数据论文资料

    本资料是集合20篇知网被引最高的基于spark的大数据论文,包括大数据Spark技术研究_刘峰波、大数据下基于Spark的电商实时推荐系统的设计与实现_岑凯伦、基于Spark的Apriori算法的改进_牛海玲、基于Spark的大数据混合...

    基于Spark的电影推荐系统

    本课程论文阐述了spark和spark集成开发环境Intellij IDEA的安装与操作,也详细说明了基于Spark的电影推荐系统的开发流程。推荐引擎是最常用的机器学校应用,我们可以在各大购物网站上看到这方面的应用。基于Spark的...

    8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf

    1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战....

    Apache Spark 2.4 and beyond

    Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager ...

    Apache Spark 2 for Beginners [2016]

    Apache Spark 2.0 for Beginners English | ISBN: 1785885006 | 2016 | Key Features This book offers an easy introduction to the Spark framework published on the latest version of Apache Spark 2 Perform ...

    spark大作业.zip

    使用Spark框架进行网站用户购物分析 目的 1、熟悉Linux系统、MySQL、Spark、HBase、Hive、Sqoop、R、Eclipse、IntelliJ Idea等系统和软件的安装和使用; 2、了解大数据处理的基本流程; 3、熟悉数据预处理方法; 4、...

    apache-doris-spark-connector-2.3_2.11-1.0.1

    Spark Doris Connector(apache-doris-spark-connector-2.3_2.11-1.0.1-incubating-src.tar.gz) Spark Doris Connector Version:1.0.1 Spark Version:2.x Scala Version:2.11 Apache Doris是一个现代MPP分析...

    Spark SQL常见4种数据源详解

    Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet...

    spark-2.1.0-bin-without-hadoop版本的压缩包,直接下载到本地解压后即可使用

    在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模...

    深入理解Spark+核心思想与源码分析.pdf

    深入理解Sp深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。 《深入理解SPARK:核心思想与源码分析》一书对Spark...

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面.zip

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ,spark-streaming,...

    大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK......

    大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK.......

Global site tag (gtag.js) - Google Analytics