摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
(二):Kubernetes如何助力Spark大数据分析
概述
本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。
先决条件
你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群
从容器服务控制台创建一个Spark OSS实例
使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

- 给你的应用一个名字, e.g. spark-oss-online2
- (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker: # set OSS access keyID and secret oss_access_key_id: <Your sub-account> oss_access_key_secret: <your key_secret of sub-account>
3.(可选)修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例
6 点击 服务, 查看外部端点, 点击URL访问Spark集群


7 测试Spark集群
- 打开一个spark-shell
kubectl get pod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m
kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs -- /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077
1.粘贴下列代码,使用Spark测试OSS的读写性
// Save RDD to OSS bucket val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2")) stringRdd.saveAsTextFile("oss://eric-new/testwrite12") // Read data from OSS bucket val lines = sc.textFile("oss://eric-new/testwrite12") lines.take(10).foreach(println)
Test Strings
Test String2
CLI 命令行操作
Setup keys and deploy spark cluster in one command
export OSS_ID=<your oss id> export OSS_SECRET=<your oss secrets> helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss myspark-oss-master ClusterIP 172.19.9.111 <none> 7077/TCP 2m myspark-oss-webui LoadBalancer 172.19.13.1 120.55.104.27 8080:30477/TCP 2m
阅读更多干货好文,请关注扫描以下二维码:
相关推荐
数据算法: Hadoop+Spark大数据处理技巧,pdf,高清,带书签,下载下来解压即可
Spark 快速大数据分析Spark 快速大数据分析Spark 快速大数据分析Spark 快速大数据分析Spark 快速大数据分析Spark 快速大数据分析
数据算法:Hadoop/Spark大数据处理技巧
三种方式的spark on kubernetes对比,第一种:spark原生支持Kubernetes资源调度;第二种:google集成的Kubernetes的spark插件sparkoperator;第三种:standalone方式运行spark集群
mongodb-spark官方连接器,运行spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:1.1.0可以自动下载,国内网络不容易下载成功,解压后保存到~/.ivy2目录下即可。
Spark是一个强大的分布式计算框架,适合处理大规模数据集,而网易云音乐作为一个庞大的音乐平台,拥有大量用户数据和音乐信息,可以通过Spark进行深入的数据分析和挖掘。以下是一些可能的数据分析方向和方法: 1. *...
Spark大数据分析与实战课后练习答案.rar
Scala和Spark大数据分析函数式编程、数据流和机器学习
资源名称:数据算法:Hadoop、Spark大数据处理技巧资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。
[毕业设计]基于Spark网易云音乐数据分析 .zip 完整代码,可运行
Spark大数据分析实战 Spark大数据分析实战 Spark大数据分析实战
spark快速大数据分析 spark快速大数据分析 spark快速大数据分析
数据算法:Hadoop+Spark大数据 中文版 高清版 良心资源
中文版,一共3卷,第1卷。了解spark技术内幕 了解spark技术内幕
使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。...
数据分析是基于spark平台,数据储存在hdfs上,开发环境是Jupyter,由于我的分布式平台是在虚拟机搭建的,所以本项目的各个模块(爬虫、数据分析、数据大屏)是分离的,将/data/data.csv上传至hdfs,分析代码位于/...
0.1配置可参考:0.2有关spark说明:spark不兼容Python3.6安装注意版本可下载:anaconda4.21.1数据student.txt1.2代码1.3结果展示2.1函数解析2.1.1collect()RDD的特性在进行基本RDD“转换”运算时不会立即执行,结果...
讲解spark hadoop大数据分析课件
spark 大数据分析,详细描述了spark用于大数据分析的流程,及其相关技术