`
thd52java
  • 浏览: 70637 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop 学习要点

 
阅读更多

一、HDFS

(一)HDFS 概念

(二)HDFS命令行接口

(三)Java 接口

(四)文件读取和文件写入,一致性

(五)集群数据的均衡

(六)存档 

(七)NameNode 单点故障问题

(八)大量小文件处理策略

(九)数据备份和恢复

(十)数据安全

(十一)负载均衡和垃圾回收

(十二)安装新节点

(十三)卸载节点

(十四)HDFS优化

(十五)HDFS格式化过程

(十六)数据压缩

(十七)当前单NameNode 的优势和劣势和改进办法

(十八)HDFS架构和设计要点

1. NameNodeDataNode

2. 文件系统的NameSpace

3. 镜像和编辑日志

4. 数据拷贝

5. 文件系统元数据的持久化

6. 通讯协议

7. 健壮性

8. 数据组织

9. 可访问性

二、Hadoop I/O

 

(一)数据完整性

 

(二)压缩

 

(三)序列化

 

(四)基于文件的数据结构

1. MapFile

2. SequenceFile

三、MapReduce 工作机制

 

(一)MapReduce Job运行过程

 

(二)TaskTaker 机制

 

(三)JobTraker机制

 

(四)任务失败

 

(五)Job的调度

 

(六)Suffer 和排序

 

(七)任务的执行

 

(八)配置优化和MapReduce Job优化

四、MapReduce Job 编写

(一)MapReduce 组件

(二)输入格式

(三)输出格式

(四)计数器

(五)链接

Map端链接

Reduce端链接

(六)排序

部分排序

全排序

辅助排序

(七)边数据分布

 

五、Mysql数据

六、自定义组件

七、MapReduce 实现矩阵乘法

八、MapReduce 实现常见机器学习算法

九、Reduce 不均匀

分区的Key和分区函数是操作Reduce分区造成不均匀的原因,策略:修改

十、MapReduce设计模式

(一)摘要模式

(二)过滤器模式

(三)数据组织模式

(四)Join模式

(五)元模式

(六)输入输出模式

(七)吞吐量和趋势

<!--EndFragment-->
分享到:
评论

相关推荐

    Hadoop.txt

    hadoop技术要点,学习Hadoop必须学会的知识点,学会这些知识点基本掌握hadoop

    基于Hadoop的大数据处理系统.pdf

    我们⽬前进⾏的⼤数据学习研究也是基于Hadoop平台展开。 本报告主要包括以下⼏⽅⾯主题: 1. 分布式计算架构及分布式计算原理概述 2. Hadoop架构及集群⽅式介绍 3. 基于Hadoop完全分布式集群进⾏演⽰ 1. 架构介绍 ⼤...

    知识图谱—3.1 Hadoop技能图谱(高清).jpg

    此外,这些图谱还提供了相关的学习资源和参考资料,方便读者深入学习和实践。 适合人群:该资源适合那些希望系统学习和全面掌握IT工程师所需技能的人士,包括IT从业人员、计算机科学专业学生、自学者等。无论是初学...

    开源力量——数据挖掘原理与实战

    对于已经有一定基础的hadoop开发人员,你可以根据自己的情况,选择学习模块,而不必4个板块从头开始学。 特点1:真正做到从0开始,从入门到精通 特点2:适合不同基础的学员学习 特点3:阶梯式课程,每个阶段都有明确...

    客户关系管理简答题+答案.doc

    答题要点: 利润源泉、聚客效应、信息价值、口碑价值、对付竞争的利器 2.什么是企业管理客户关系的逻辑? 答题要点: 首先,没有客户关系时,企业要努力去建立关系; 其次,有了客户关系时,还要努力去维护这得来...

    大数据时代的技术发展和IT人的挑战

    主要讨论了Hadoop等大数据技术的发展现状,其主要应用领域及其同Oracle等关系型数据库在应用方向...大家在学习HDFS和MapReduce技术时所需把握的技术要点;大数据技术对从业人员的技能要求(DevOps)及其职业发展路线。

    大数据开发的技巧总结以及入门教程知识点总结.docx

    分布式系统理解:掌握分布式计算原理,理解MapReduce、Spark、Flink等计算框架的工作机制。...数据分析:具备基本的数据挖掘和统计学知识,会使用Mahout、MLlib等机器学习库。 容器化部署:利用Docker、Kuber

    马可夫链matlab源代码-pcStream:pcStream算法的开源实现

    Hadoop 的 pcStream 算法的实现。 我们建议使用 R 的源代码,因为它具有最新的功能并且组织良好。 什么是pcStream? 无界数据流的聚类是一个难题,因为无法存储观察到的实例以用于未来的聚类决策。 此外,流的概率...

    DSP很难学?一文读懂系统技术架构

    算法引擎模块主要是大数据及算法的机器学习大量采用分布式技术(例如hadoop),对用户日志、人群数据进行建模及机器智能处理。算法引擎模块处理好的人群数据、算法模型等等数据通过海量内存技术(例如redis)暂存在内存...

    R-for-datamining

    目前,R和Python等开放源代码软件方兴未艾,但此类软件的学习曲线缓慢,在进入数据分析的核心领域之前,许多初学者的热情就消失了。 业务数据分析的真正目的是解决业务分析需求并构建健壮的数据挖掘模型。 严格控制...

    《大数据:从基础理论到最佳实践》的代码(ISBN:978-7-302-45743-5)

    清华大学出版社出版的,这本书的资源不错,不过它的代码很难下载到。我的博客会陆续登出学习过程中需要的代码和技术要点。

    基地:https://www.researchgate.netprofileRajah_Iyer

    •学习曲线有多陡峭•从长远来看,该解决方案是否能与我们框架中的现有系统很好地集成:•对于我们来说,改变和重新调整实现以适应未来的需求将变得多么容易•这样的速度有多快实施变更•我们最终需要取消实施的...

Global site tag (gtag.js) - Google Analytics