作者:考斯丁.里奥,托马斯.里斯伯格,简尼.沃尔克拉蒂
目录
I. 简介
1. 环境需求
2. 其他资源
II. Spring 和 Hadoop
3. Hadoop配置
3.1. 使用Spring for Hadoop的命名空间
3.2. 使用Spring for Hadoop的JavaConfig
3.3. 配置Hadoop
3.4. 运行支持
3.4.1. spring.hadoop属性
3.4.2. spring.hadoop.fsshell 属性
4. MapReduce和分布式缓存
4.1. 创建Hadoop作业
4.1.1.创建Hadoop Streaming作业
4.2. 运行Hadoop 作业
4.2.1.使用Hadoop作业的任务调度器
4.3. 运行Hadoop的工具
4.3.1. 使用运行工具替换Hadoop的命令行调用
4.3.2. 使用Hadoop的工具任务调度器
4.4. 运行Hadoop的Jar
4.4.1 使用Hadoop Jar任务调度器
4.5. 配置Hadoop的分布式缓存
4.6. Map Reduce通用选项
5. 协同Hadoop文件系统
5.1. 设置文件系统
5.2. 使用HDFS资源加载器
5.3. 用脚本编写Hadoop API
5.3.1. 使用脚本
5.4. 用脚本编写隐含变量
5.4.1. 运行脚本
5.4.2. 使用脚本调度器
5.5. 文件系统Shell(FsShell)
5.5.1. DistCp API(集群间拷贝)
6. 使用Hadoop文件系统写入和读取数据
6.1. 存储抽象(不好理解)
6.1.1. 数据写入
文件命名
文件翻转
分区创建分区策略
写入实现
6.1.2. 读取数据
输入分片
读取实现
6.1.3. 使用Codecs
6.2. 使用Kite SDK持久化POJO数据集
6.2.1. 数据格式
使用Avro
使用Parquet
6.2.2. 设置数据集支持
6.2.3. 数据集写入
6.2.4. 数据集读取
6.2.5. 数据集分区
7. 协同HBase
7.1. DAO支持
8. 集成Hive
8.1. 启动Hive服务
8.2. 使用Hive的Trift客户端
8.3. 使用Hive的JDBC客户端
8.4. 运行Hive脚本或者查询
8.4.1. 使用Hive任务调度器
8.5. 与Hive API交互
9. Pig支持
9.1. 运行Pig脚本
9.1.1. 使用Pig任务调度器
9.2. 与Pig 的API交互
10. 使用runner classes
11. 安全支持
11.1. HDFS授权
11.2. 用户模拟
11.3. 启动支持
11.3.1. Spring.hadoop.security 属性
12. Yarn支持
12.1. 使用Spring for Apache的命名空间
12.2. 使用Spring for Apache的JavaConfig
12.3. 配置Yarn
12.4. 本地资源
12.5. 容器环境
12.6. 应用程序的客户端
12.7. 应用程序的Master
12.8. 应用程序的容器
12.9. 应用程序Master的服务项目
12.9.1. 基本概念
12.9.2. 使用JSON
12.9.3. 转换器
12.10. 应用程序Master的服务
12.11. 应用程序Master服务的客户端
12.12. 使用Spring批处理
12.12.1. 批处理作业
12.12.2. 分区
配置Master
配置容器
12.13. 使用Spring 应用程序启动模型
12.13.1. 自动设置
12.13.2. 应用程序文件
12.13.3. 应用程序的classpath
简单的可运行Jar包
简单的Zip归档
12.13.4. 容器运行器
定制运行器
12.13.5. 资源本地化
12.13.6. POJO化容器
12.13.7. 配置属性
Spring.yarn
Spring.yar.appmaster
Spring.yarn.appmaster.launchcontext
Spring.yarn.appmaster.resource
Spring.yarn.appmaster.containercluster
Spring.yarn.appmaster.containercluster.cluster.<name>
Spring.yarn.appmaster.containercluster.cluster.<name>.projection
Spring.yarn.endpoints.containercluster
Spring.yarn.endpoints.containerergister
Spring.yarn.client
Spring.yarn.client.launchcontext
Spring.yarn.client.localizer
Spring.yarn.client.resource
Spring.yarn.container
Spring.yarn.batch
Spring.yarn.batch.jobs
12.13.8. 容器组
网格投影
分组设置
容器重启
REST API
12.13.9. 应用程序控制
一般用法
使用属性配置
使用YarnPushApplication
使用 YarnSubmitApplication
使用YarnInfoApplication
使用YarnKillApplication
使用YarnShutDownApplication
使用 YarnContainerClusterApplication
12.13.10. 集成客户端
内置命令
命令实现
使用Shell
13. 测试支持
13.1. 测试MapReduce
13.1.1. 最小化的Mapreduce集群
13.1.2. 配置
13.1.3. 特定测试
13.1.4. Wordcount例子
13.2. 测试Yarn
13.2.1. 最小化的Yarn集群
13.2.2. 配置
13.2.3. 特定测试
13.2.4. 复合上下文例子
13.3. 测试基于Boot的应用
III. 开发Spring for Apache Hadoop应用
14. 指导和例子
14.1. 调度
14.2. 批处理作业侦听
15. 其他例子
IV. 其他资源
16. 链接
相关推荐
Spring Data for Apache Hadoop API。 Spring Data for Apache Hadoop 开发文档
SQL for Apache Hadoop, SQL for Apache Hadoop, SQL for Apache Hadoop, SQL for Apache Hadoop
spring-hadoop-入门Spring for Apache Hadoop 入门示例
Spring for Apache Hadoop 提供了 Spring 框架用于创建和运行 Hadoop MapReduce、Hive 和 Pig 作业的功能,包括 HDFS 和 HBase。如果你需要简单的基于 Hadoop 进行作业调度,你可添加 Spring for Apache Hadoop 命名...
Pro apache hadoop 原版书
spring data hadoop 参考文档
带图带说明:Hadoop简介及Apache Hadoop三种搭建方式
Apache Hadoop YARN.pdf完整电子版
Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get ...
apache hadoop v2.7.0官方最新版
Pro Apache Hadoop, 2nd Edition是最新介绍Hadoop2.x的资料
藏经阁-A Container-based Sizing Framework for Apache Hadoop_Spark Clusters.pdf
Moving beyond MapReduce and Batch Processing with Apache Hadoop™ 2
Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 完整版哦,绝对清晰,不是扫描的mobi格式电子书,请使用电子书库calibre (http://calibre-ebook.com/download) 打开。
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。但是这里的 Hadoop 是广义...
Apache Hadoop十周岁:展望前方.pdf
Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of...
Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...
集成spring3-hadoop0.2.0 eclipse3.7快速开发 mapreduce程序!