`

大数据学习路线

 
阅读更多

课程模块

课程主题

主要内容

模块一

Spark
生态介绍

¬ Mapreducestormspark模型的比较和使用场景介绍
¬ Spark产生背景
¬ Spark(内存计算框架)
¬ SparkSteaming(流式计算框架)
¬ Spark SQLad-hoc
¬ MllibMachineLearning
¬ GraphXbagel将被代)
¬ DlinkDB介绍
¬ SparkR介绍

模块二

Spark
安装部署

¬ Spark安装简介
¬ Spark的源码编译
¬ Spark Standalone安装
¬ Spark应用程序部署工具spark-submit
¬ Spark的高可用性部署

模块三

Spark
运行架构和解析

¬ Spark的运行架构
基本术语
运行架构
• Spark on Standalone运行过程
• Spark on YARN 运行过程
¬ Spark运行实例解析
• Spark on Standalone实例解析
• Spark on YARN实例解析比较 StandaloneYARN模式下的优缺点

模块四

Spark
scala编程

• Scala基本语法与高阶语法• Scala基本语法
• Scala
开发环境搭建
• Scala
开发Spark应用程序
使用java编程
使用scala编程
使用python编程

模块五

Spark
编程模型和解析

¬ Spark的编程模型
• Spark编程模型解析
• RDD的特点、操作、依赖关系
• Spark应用程序的配置

Spark的架构

spark的容错机制

数据的本地性

缓存策略介绍宽依赖与窄依赖

模块六

Spark 数据挖掘

¬ Mllib的介绍
¬ graphX核心原理
¬ table operatorgraph operator区别
¬ verticesedgestriplets介绍
¬构建一个graph
¬ SparkR原理
¬ SparkR实战

模块七

Spark Streaming原理和实践

¬ Spark StreamingStrom的区别
¬ Kafka的部署
¬ KafkaSpark Streaming的整合
¬ Spark Streaming原理
• Spark流式处理架构
• DStream的特点
• Dstream的操作和RDD的区别带状态的transformation与无状态transformation
• Spark Streaming的优化
¬ Spark Streaming实例

Streaming的容错机制

streamingyarn模式下的注意事项对于需结合第三方存储机制的与流式处理方案
文本实例
网络数据处理
• Kafka+Spark Streaming实现日志的实时分析案例

模块八

Spark的优化

¬序列化优化——Kryo
¬ Spark参数优化实战
¬ Spark 任务的均匀分布策略
¬ Partition key倾斜的解决方案
¬ Spark任务的监控
¬ GC的优化
¬ Spark Streaming吞吐量优化
¬ Spark RDD使用内存的优化策略
¬ Spark在使用中的感想分享

模块九

Spark的数据源

¬ SparkHDFS的整合
¬ HDFS RDD原理和实现
¬ SparkHbase的整合
¬ SparkCassendera整合
¬ Hbase RDD的分区读取
¬ Hbase RDD的原理和实现
¬ Spark parallelism RDD的工作机制

模块十

Spark Streaming应用及案例分析

¬Spark Streaming产生动机
¬ Spark Streaming程序设计
1)创建DStream
2)基于DStream进行流式处理
¬Spark Streaming容错与性能优化
1Spark Streaming容错机制
2)如何对spark Streaming进行优化
¬ Spark Streaming案例分析
基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法

模块十一

典型项目
案例实战

¬基于spark日志分析
¬个性化推荐系统:带你揭开其神秘面纱
¬在线投放引擎
¬揭开淘宝点击推荐系统的神秘面纱
¬淘宝数据服务架构实时计算平台

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics