`
zhang69011486
  • 浏览: 1719 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop学习顺序【转】

阅读更多
hadoop学习顺序
第一 先会配置安装一个HD 10分钟
第二 会用HDFS的API
第三 会用已有MR 写一个Job 一个Job除了有提交方法外 其他都是Configuration决定的
第四 会重写多数的类达到你的功能 RecordWriter/Reader FileInput/OutPutFormat MapReduce 搞懂他们的启动顺序 以及实现抽象类和接口的必要方法 和它们的作用
第五 重新配置安装HD 这次你需要做HA 多集群一大堆的东西
第六 搞懂Configuration XML里至少80%条目的意义
第七 学基本的Pig Hive并且查看他们的源码怎么调用MR的
第八 看Mahout源码 看他们每个算法利用了MR的什么天然特性
第九 根据你所知的东西 看HD源码 搞懂至少 .conf .hdfs .fs .io .mapred .mapreduce .jobcontrol .compress .util 里面的各个class 其实一个包里的东西不多 平均10个左右的class 每个class基本不超过500行 代码风格非常号
第十 照着HD 包装自己公司的 至少以上 分布式系统(小弟能力有限 做不不了)
我认为 如果做开发 不做运维的话 当他是个文件系统 做运维 就搞懂第六条
分享到:
评论

相关推荐

    Hadoop实战中文版

    7.2 探查任务特定信息 7.3 划分为多个输出文件 7.4 以数据库作为输入输出 7.5 保持输出的顺序 7.6 小结 第8章 管理Hadoop 8.1 为实际应用设置特定参数值 8.2 系统体检 8.3 权限设置 8.4 配额管理 8.5 启用...

    Hadoop实战中文版.PDF

    1387.4 以数据库作为输入输出 1437.5 保持输出的顺序 1457.6 小结 146第8章 管理Hadoop 1478.1 为实际应用设置特定参数值 1478.2 系统体检 1498.3 权限设置 1518.4 配额管理 1518.5 启用回收站 ...

    Hadoop实战(陆嘉恒)译

    Hadoop技术本身比较复杂,而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术,学习门槛比较高,对于初学者和基础不太扎实的读者而言,有一本适合系统学习的Hadoop图书显得十分重要。本书即是专门为这两类读者量身...

    Hadoop实战

    1357.2 探查任务特定信息 1377.3 划分为多个输出文件 1387.4 以数据库作为输入输出 1437.5 保持输出的顺序 1457.6 小结 146第8章 管理Hadoop 1478.1 为实际应用设置特定参数值 1478.2 系统体检 1498.3 权限设置 1518...

    Hadoop快速入门七步走

    本文整理了网上搜集的Hadoop资料,共7个文件。学习顺序可以按照命名规则 STEP1__XXX --> STEP6__XXX; STEP7_XXX.pdf可以作为工具书参考。 适合对大数据感兴趣的初学者快速入门。欢迎大家提出宝贵意见或建议。

    Sql开窗函数资源-Dark-Horse-Programmer.zip

    其中包括hadoop,hive,hdfs,shell,linux基础,开窗函数学习资料和讲解视频 川在川上曰:靠谱! SaL 的运行顺序 from 1 where 2group by 3having 4 select 5 基本查询开窗查询 order by 6 limit 7 其中包括hadoop,...

    hamake:基于 Hadoop 数据流的任务管理器

    使用模糊时间戳作为检测数据集何时需要更新的方法,我们可以计算需要执行任务以更新所有数据集的顺序。 用于更新独立数据集的作业可以并发执行,从而充分利用 Hadoop 集群的全部容量。 依赖图甚至可能包含循环,...

    javashuffle源码-MapReduce-Demo:Hadoop,MapReduce编程学习练手实例

    Patterns》顺序,我想老师以这样的流程授课肯定是有道理的。 该项目还在更新中,有些代码还没实现,慢慢来吧。 目录 MapReduce编程实例 1.自定义对象序列化 需求分析 需要统计手机用户流量日志,日志内容实例: 要把...

    Java及大数据学习路线.pdf

    命令解析器Shell 2.3Hadoop⽣态体系 ⼤数据存储框架Hadoop 分布式服务管理框架zookeeper hadoop⾼可⽤HA 数据仓库hive 数据查询框架impala+kudu+clouderManager ⽇志采集传输框架flume/idea 分布式发布-订阅消息系统...

    java查看函数源码-BigDataArchitect:大数据架构师

    同学们请先浏览下面的课程模块顺序和课程视频顺序。学习到相关模块请在该项目目录中去到子目录查看具体的README描述! 大数据架构师课程导读 1. bigdata_hadoop 2. bigdata_hive 3. bigdata_hbase 4. bigdata_hadoop...

    最详细Zookeeper学习资料(源码)

    ZooKeeper是一个开源的分布式协调服务,最初由雅虎公司开发,后来成为Apache基金会的顶级...ZooKeeper被广泛应用于构建分布式系统和大规模互联网应用程序中,包括Hadoop、Kafka、HBase等知名的分布式系统都使用了ZooK

    Spark学习笔记—Spark计算模型

    一.弹性分布式数据集-RDD RDD是Spark核心数据结构...从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

    大数据面试题,唬住50k.pdf

    下列哪个是 Hadoop 运⾏的模式 a)单机版 b)伪分布式 c)分布式 答案 ABC 单机版,伪分布式只是学习⽤的。 1. ⾯试题 1. Hadoop的核⼼配置是什么? Hadoop的核⼼配置通过两个xml⽂件来完成:1,hadoop-default.xml;2...

    mgljava#bigData-study#HBase视频学习1

    HBase概念分布式、高可用、高性能、面向列、底层采用HDFS存储数据HBase一些术语列族:一组列的集合逻辑表时间戳决定一行数据按照字典顺序排序Row key

    WeblogChallenge:这是Paytm Labs的面试挑战。 请随意分叉。 拉取请求将被忽略

    面向机器学习工程师(MLE)候选人的其他问题: 预测下一分钟的预期负载(请求/秒) 预测给定IP的会话长度 预测给定IP的唯一URL访问次数 允许使用的工具(无特定顺序): Spark(任何语言,但更喜欢Scala或Java) ...

    Bayesian-Network-Distribution:我的本科毕业设计的

    SUB毕设做的是建造一个Hadoop云计算平台,并在该平台上将贝叶斯网络结构学习算法进行分布化实现。 贝叶斯网络结构学习算法采用K2算法,K2算法采用贪婪搜索处理模型处理问题。首先选择一种评价网络结构优劣的评分函数...

    python-data_structure-algorithms

    如何进行学习您需要按以下顺序学习:先决条件我建议在系统中安装以下软件: python 3.7.x或更高版本pip3安装python 3软件模块和软件包。 Pycharm-社区版本(如果需要免费)正在安装pip3 install -r docs/...

Global site tag (gtag.js) - Google Analytics