hadoop权威指南读书笔记 - 90后小伙 - ITeye博客

`

这些年

浏览: 390703 次
性别:
来自: 北京

最近访客更多访客>>

hjz

xray2100

linkoog

luojianbing

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hopana：不用下插件，用JSON.stringify(cmd)就可以了
spring mvc 接收前台传来的json对象（转）
libankling：很好很强大，谢谢分享
jquery datatables api （转）
liuweihug：推荐这个博客看看。Jquery DataTable基于Twit ...
jquery datatables api （转）
岛田无涯：不错，下次试试
MinGW
javaeye官理员： import sys, tracebacktry: f ...
python 异常处理

hadoop权威指南读书笔记

博客分类：

hadoop

阅读更多

第二章：关于mapReduce

mapreduce是一种可用于数据处理的编程模型，它是并行运行的，可以处理大规模数据分析。

处理少量大文件比大量小文件更容易

mapreduce两个处理阶段：

map阶段和reduce阶段，每个阶段都以key/value做为输入和输出，类型由程序员选择

map中的key是文件中的行偏移量，map函数并不需要这些信息，所以将其忽略

reduce的输入类型必须与map的输出类型相匹配

reduce函数输出文件的目录在运行任务前应该不存在

数据流：

节点角色：

tasktracker：用来执行map和reduce任务

jobtracker：用来调度任务在哪个tasktracker上执行

执行任务期，tasktracker会将运行进度报告给jobtracker,job由此记录作业的整体进度，如果其中一个任务失败，它可以调度别一个tasktracker来重新执行

分片：hadoop将mapreduce输入数据划分成等长的小数据块称为分片，hadoop为每个分片建立一个map任务，并由map函数来处理分片中的每行数据（分片切分更细，负载均衡就越好，当然太小map数就越多，所须要执行时间就越长）

一个合理的分片应该与hdfs块大小相同，默认64M

map函数的输出会写到磁盘上，非hdfs；reduce的输出存在hdfs上实现可靠存储

单个reduce的输入通常来自所有map的输出

分享到：

linux中的环境变量（转） | pig实战（转）

2013-12-12 23:29
浏览 1185
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop 权威指南读书笔记: Hadoop 权威指南读书笔记我自己画的一张图

Hadoop权威指南----读书笔记.pdf: Hadoop权威指南----读书笔记

hadoop权威指南4和源码: hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码

Hadoop权威指南中文版（完全版）: Hadoop权威指南中文版（完全版）Hadoop权威指南中文版（完全版）Hadoop权威指南中文版（完全版）Hadoop权威指南中文版（完全版）

Hadoop权威指南中文版: 　本书是hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行hadoop集群。　什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用，是...

Hadoop权威指南,hadoop权威指南pdf,Hadoop: Hadoop权威指南

hadoop权威指南第四版高清 pdf下载: hadoop权威指南第四版高清 pdf下载 hadoop权威指南第四版高清 pdf下载

Hadoop权威指南第四版中文版: 本文带来的资源是hadoop权威指南第四版中文版，适合hadoop深入学习

Hadoop权威指南----读书笔记: Hadoop权威指南----读书笔记介绍Hadoop这一高性能处理海量数据集的理想工具

Hadoop权威指南(中文版): Hadoop编程书籍，由浅入深，介绍Hadoop编程，特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

Hadoop权威指南(中文版)(带书签: Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签

Hadoop权威指南_第四版_中文版: Hadoop权威指南第四版修订版&升级版中文版 pdf格式。大家放心，绝对是中文版，不骗人。原文件很大，稍压缩了一下，页面依然非常清晰。无水印。共732页。 Tom White 著，王海等译，清华大学出版社，2017年7月第4...

Hadoop权威指南第四版大数据中文版 pdf: 绝对第四版！绝对中文！绝对完整！绝对第四版！绝对中文！绝对完整！ Hadoop权威指南大数据第四版修订版&升级版中文版 pdf格式。Tom White 著，王海等译，清华大学出版社，最新第4版。

hadoop权威指南代码（Hadoop: The Definitive Guide code）: hadoop权威指南代码（Hadoop: The Definitive Guide code） http://www.hadoopbook.com

Hadoop权威指南_第四版_中文版（附源码））: Hadoop权威指南第四版中文版，高清扫描版，有源码本文带来的资源是hadoop权威指南第四版中文版以及配套的源码，内容以Hadoop2.x为主，包含一些hadoop的stable版本的新特性，与之前的版本相比增加了介绍YARN , ...

史上最全--HADOOP权威指南第3版带目录书签完整版: 史上最全--HADOOP权威指南第3版 PDF电子书下载带目录书签完整版

Hadoop权威指南(第4版)(修订版) 中英文PDF（含源码）: Hadoop权威指南:大数据的存储与分析(第4版)(修订版) 中英文PDF高清，包含源码！

【免费】Hadoop权威指南(第3版) 修订版(带目录书签) 中文高清晰PDF: 新版已上市！全面深度解读Hadoop的指南，驰骋于云计算和大数据领域的通俗读本

hadoop权威指南中文版: hadoop权威指南中文版云计算 java hive hbase mapreduce hdfs

hadoop权威指南第三版: hadoop权威指南第3版是一本非常专业的Hadoop参考学习用书，该书系统阐述了Hadoop发展现状和应用，知识体系完善，内容丰富全面，对Hadoop感兴趣的朋友可以学习学习。

Global site tag (gtag.js) - Google Analytics