`
大涛学长
  • 浏览: 85705 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Spark在MaxCompute的运行方式

阅读更多
一、Spark系统概述
===========

![image](https://yqfile.alicdn.com/635018bd6813c3e8568bb4771e296407741cf94a.png)

左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。

二、Spark运行在客户端的配置和使用
===================

**2.1打开链接下载客户端到本地**

[http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz](https://yq.aliyun.com/go/articleRenderRedirect?url=http%3A%2F%2Fodps-repo.oss-cn-hangzhou.aliyuncs.com%2Fspark%2F2.3.0-odps0.30.0%2Fspark-2.3.0-odps0.30.0.tar.gz%3Fspm%3Da2c4g.11186623.2.12.666a4b69yO8Qur%26amp%3Bfile%3Dspark-2.3.0-odps0.30.0.tar.gz)

**2.2将文件上传的ECS上**

![image](https://yqfile.alicdn.com/b94dd979ed68c55a5a9805c1b945977f4bbc92b1.png)

**2.3将文件解压**

```
tar -zxvf spark-2.3.0-odps0.30.0.tar.gz

```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

**2.4配置Spark-default.conf**

```
# spark-defaults.conf
# 一般来说默认的template只需要再填上MaxCompute相关的账号信息就可以使用Spark
spark.hadoop.odps.project.name =
spark.hadoop.odps.access.id =
spark.hadoop.odps.access.key =

# 其他的配置保持自带值一般就可以了
spark.hadoop.odps.end.point = http://service.cn.maxcompute.aliyun.com/api
spark.hadoop.odps.runtime.end.point = http://service.cn.maxcompute.aliyun-inc.com/api
spark.sql.catalogImplementation=odps
spark.hadoop.odps.task.major.version = cupid_v2
spark.hadoop.odps.cupid.container.image.enable = true
spark.hadoop.odps.cupid.container.vm.engine.type = hyper

```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

**2.5在github上下载对应代码**

[https://github.com/aliyun/MaxCompute-Spark](https://yq.aliyun.com/go/articleRenderRedirect?url=https%3A%2F%2Fgithub.com%2Faliyun%2FMaxCompute-Spark)

**2.5将代码上传到ECS上进行解压**

```
unzip MaxCompute-Spark-master.zip

```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

**2.6将代码打包成jar包(确保安装Maven)**

```
cd MaxCompute-Spark-master/spark-2.x
mvn clean package

```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

**2.7查看jar包,并进行运行**

```
bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.SparkPi \
MaxCompute-Spark-master/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jar

```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

三、Spark运行在DataWorks的配置和使用
=========================

**3.1进入DataWorks控制台界面,点击业务流程**

![image](https://yqfile.alicdn.com/66b37e79f22d5bd0595f7d350d0a6ee3294fd1d7.png)

**3.2打开业务流程,创建ODPS Spark节点**

![image](https://yqfile.alicdn.com/c837f4832d9450d9655e43b2ee59d8a9111a0170.png)

**3.3上传jar包资源,点击对应的jar包上传,并提交**

![image](https://yqfile.alicdn.com/8761c7e4e0b5721560468818b179df6fd2d5ecba.png)

![image](https://yqfile.alicdn.com/32cea69a7af6a17ede781cbf0059254cf88ba0cc.png)

![image](https://yqfile.alicdn.com/355955189400fb15244ae4636db6e9f433fd7304.png)

**3.4配置对应ODPS Spark的节点配置点击保存并提交,点击运行查看运行状态**

![image](https://yqfile.alicdn.com/1c21dbab3fe01463ccb50b9d44ca80341ccfd096.png)

四、Spark在本地idea测试环境的使用
=====================

**4.1下载客户端与模板代码并解压**

客户端: 
[http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz](https://yq.aliyun.com/go/articleRenderRedirect?url=http%3A%2F%2Fodps-repo.oss-cn-hangzhou.aliyuncs.com%2Fspark%2F2.3.0-odps0.30.0%2Fspark-2.3.0-odps0.30.0.tar.gz%3Fspm%3Da2c4g.11186623.2.12.666a4b69yO8Qur%26amp%3Bfile%3Dspark-2.3.0-odps0.30.0.tar.gz)

![image](https://yqfile.alicdn.com/23358ff3b14cdfd918a32e8e977293f71c37bc79.png)

模板代码:

[https://github.com/aliyun/MaxCompute-Spark](https://yq.aliyun.com/go/articleRenderRedirect?url=https%3A%2F%2Fgithub.com%2Faliyun%2FMaxCompute-Spark)

**4.2打开idea,点击Open选择模板代码**

![image](https://yqfile.alicdn.com/0c9285cfe7c28416dc4ca136df4be1589947de68.png)

![image](https://yqfile.alicdn.com/016e728559b509302c319650f5b0bf51f231acd2.png)

**4.2安装Scala插件**

![image](https://yqfile.alicdn.com/3000a4ca1acaddadf0cc48d8636441325190c0cb.png)

![image](https://yqfile.alicdn.com/8ce7b393d37dfd4dd5d286ebf5c244ae7b748bd9.png)

**4.3配置maven**

![image](https://yqfile.alicdn.com/f2ee8b48b5bbbd73145353ecdea99b2f2224eedc.png)

**4.4配置JDK和相关依赖**

![image](https://yqfile.alicdn.com/8fc464aea6528cd484a9c21f2ff919e3937c8b0c.png)

![image](https://yqfile.alicdn.com/cfd709d6a34da2061be6a8c39a30bfefc08d44bb.png)
分享到:
评论

相关推荐

    MaxCompute重磅发布.pdf

    阿里云产品专家郭坤在2017云栖大会·北京峰会中做了题为《MaxCompute重磅发布》的分享,就Python UDF的特点,如何进入官网申请公测等方面的内容做了深入的分析。

    spark运行原理解析

    spark运行原理解析

    IntelliJ Idea开发spark程序及运行

    IntelliJ Idea开发spark程序及运行文章的源码,程序简单入门。 项目中缺这个包,请读者自行补上,在SPAKRK_HOME/lib下面有 spark-assembly-1.6.0-hadoop2.6.0 代码指导文章地址: ...

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容...2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60

    Spark 2017最新运行命令样例

    包含spark三种运行模式所有相关运行指令 需要更多资源请关注。 个人github: https://github.com/huangyueranbbc

    基于Spark Streaming的大数据实时流计算平台和框架,并且是基于运行在yarn模式运行的spark streaming

    一个完善的Spark Streaming二次封装开源框架,包含:实时流任务调度、...基于Spark Streaming的大数据实时流计算平台和框架(包括:调度平台,开发框架,开发demo),并且是基于运行在yarn模式运行的spark streaming

    Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

    Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

    4.Spark运行架构.pdf

    4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....

    三种方式的spark on kubernetes对比

    三种方式的spark on kubernetes对比,第一种:spark原生支持Kubernetes资源调度;第二种:google集成的Kubernetes的spark插件sparkoperator;第三种:standalone方式运行spark集群

    windows环境运行spark部署说明文档

    在windows环境下部署spark运行环境。intelliji idea+spark1.6 +scala 2.10+java 1.8,包含需要的hadoop文件。

    Spark运行架构和解析

    spark-炼数成金讲义

    Spark的运行模式.xmind

    该资源主要是描述spark运行模式中的spark standalone模式和spark on yarn模式。详细内容可参见本人博客

    Hadoop原理与技术Spark操作实验

    3. 学会在Spark Shell中运行Scala程序。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)Spark基础知识 (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2...

    spark1.2.1常用模式部署运行

    描述了spark1.2.1在standalone集群模式和on yarn集群模式下的部署与运行方式。

    Spark 入门实战系列

    4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....

    Spark大数据处理

    1.5.1 Spark在Amazon中的应用 1.5.2 Spark在Yahoo!的应用 1.5.3 Spark在西班牙电信的应用 1.5.4 Spark在淘宝的应用 1.6 本章小结 第2章 Spark集群的安装与部署 2.1 Spark的安装与部署 2.1.1 在Linux集群上安装与...

    spark local下 WordCount运行示例

    spark local下 WordCount运行示例,maven项目,直接导入eclipse即可

    大数据Spark入门到精通v3.0版

    011 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作.avi 012 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序.avi 013 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作.avi 015 - Spark框架 - ...

    Spark从入门到精通

    Spark安装配置,以及Spark三种运行方式,Spark原理,Spark案例、spark项目分析步骤全部涵盖

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    以编程的方式运行 SQL 查询 创建 Dataset RDD 的互操作性 数据源 通用的 Load/Save 函数 Parquet文件 JSON Datasets Hive 表 JDBC 连接其它数据库 故障排除 性能调优 缓存数据到内存 其它配置选项 ...

Global site tag (gtag.js) - Google Analytics