hadoop博客资源

博客分类：

hadoop资源

邵铮的PPT，关于hive的架构/原理/优化，研究hive不可不看 http://www.slideshare.net/zshao 更多的hive presentation ppt http://wiki.apache.org/hadoop/Hive/Presentations hadoop 源代码分析最好最全的 http://caibinbupt.iteye.com/ 有很多关于hadoop和hive的思考 http://coderplay.iteye.com/

2010-07-21 21:26
浏览 4323
评论(1)
分类:企业架构

什么是MapReduce？

博客分类：

hadoop基础

Mapreduce Hadoop 编程 Google Erlang

1、MapReduce来龙去脉 MapReduce是一个说难懂也难懂、说好懂也好懂的概念。说它难懂，是因为，如果你只理论上的去学习、去理解，确实很难懂。说它好懂，是因为，如果你亲手在hadoop运行过几个MapReduce的job，并稍微学点hadoop的� ...

2010-07-12 22:15
浏览 6714
评论(8)
论坛回复 / 浏览 (8 / 18774)
分类:编程语言

用hadoop估算圆周率PI(3.1415926)的值

博客分类：

hadoop源码解读

Hadoop 算法百度 Mapreduce ActionScript

一、hadoop不适合计算密集型的工作以前看过一个PPT： Hadoop In 45 Minutes or Less ，记得上面说hadoop不适合计算密集型的工作，比如计算PI后100000位小数。但是，前几天，我却发现了在hadoop自带的examples里，竟然有PiEstimator这个例子！ ...

2010-07-12 16:42
浏览 18727
评论(5)
论坛回复 / 浏览 (4 / 6202)
分类:企业架构

hadoop的心跳回忆

博客分类：

hadoop源码解读

Hadoop Oracle IE Apache JVM

hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，而datanode/tasktracker属于slaves。master只有一个，而slaves有多个。 namenode与datanode之间的通信，jobtracker与tasktracker直接的通信，都是通过“心跳”完成的。以前看过hadoop心跳原理的源代码，今天再回忆一下，呵呵，所以叫“心跳回忆”。 1、心跳机制心跳的机制大概是这样的： 1) master启动的时候，会开一个ipc server在那里。 2) slave启动时，会连接master，并每隔3秒钟主 ...

2010-07-11 09:38
浏览 3348
评论(3)
论坛回复 / 浏览 (3 / 6129)
分类:企业架构

hadoop的1TB排序

博客分类：

hadoop源码解读

Hadoop Mapreduce 框架 Blog Yahoo

1、1TB（或1分钟）排序的冠军作为分布式数据处理的框架，集群的数据处理能力究竟有多快？或许1TB排序可以作为衡量的标准之一。 1TB排序，就是对1TB（1024GB，大约100亿行数据）的数据进行排序。2008年，Hadoop赢得1TB排序基准评估第一名，排序1TB数据耗时209秒。后来，1TB排序被1分钟排序所取代，1分钟排序指的是在一分钟内尽可能多的排序。2009年，在一个1406个节点组成的hadoop集群，在59秒里对500GB完成了排序；而在1460个节点的集群，排序1TB数据只花了62秒。这么惊人的数据处理能力，是不是让你印象深刻呢？呵呵下面我们来看看排序的过程吧。 ...

2010-07-11 08:17
浏览 7076
评论(11)
论坛回复 / 浏览 (11 / 30872)
分类:企业架构

map的环形内存缓冲区

博客分类：

hadoop源码解读

Hadoop Mapreduce Apache 工作

hadoop在执行MapReduce任务时，在map阶段，map函数产生的输出，并不是直接写入磁盘的。为了提高效率，它将输出结果先写入到内存中（即环形内存缓冲区，默认大小100M），再从缓冲区（溢）写入磁盘。下面我们就来看看这段代码� ...

2010-07-11 01:17
浏览 8671
评论(0)
分类:企业架构

hadoop扫盲篇

博客分类：

hadoop基础

Hadoop Mapreduce 云计算中国移动金山

一、Hadoop是什么？答：是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含：HDFS和MapReduce HDFS是分布式文件系统，用于分布式存储海量数据。 MapReduce是分布式数据处理模型，本质是并行处理。二、多少数据算海量数据？答：个人认为，TB（1024GB）级别往上就可以算海量数据。三、谁在使用hadoop？ N多大型互联网公司，这里列的比较全： http://wiki.apache.org/hadoop/PoweredBy 在国内，包括中国移动、百度、网易、淘宝、腾讯 ...

2010-07-10 23:51
浏览 10932
评论(4)
分类:企业架构

说说hadoop的DFSOutputStream

博客分类：

hadoop源码解读

Hadoop Socket Apache HTML

当我们用命令: hadoop fs -copyFromLocal localfile hdfs://... 将本地文件复制到HDFS时，其背后的复制过程是怎样的？本地文件通过什么方式传输到datanode上的呢？这里面很显然的是： 1、文件在多个电脑之间进行了传输（至少有2台电脑：本地电脑和一个datanode节点）。 2、如果文件超过一个block的大小（默认是64M），那么将一个文件分割成多个block是在哪里发生的？带着这些疑问，我们来解读一下源代码。一、找到“幕后英雄” 通过简单的跟踪，就会发现这一功能是由FileSystem类的copyFromLocalFile方法完成 ...

2010-07-10 23:09
浏览 5593
评论(2)
分类:企业架构

hadoop资源汇总（持续更新中...）

博客分类：

hadoop资源

Hadoop 搜索引擎 BBS Blog

1、Hadoop学习资料 -- 这里面总结了很多的东西，值得一一细看 http://cloud21.iteye.com/blog/607175 2、关于Hadoop的两本书 -- 有电子书下载 http://caibinbupt.iteye.com/blog/418846 3、JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错 http://hadoop.group.iteye.com/ 4、豆瓣hadoop小组 http://www.douban.com/group/156966/ 5、严重推荐Cloudera -- 专门研究和培训 hadoop 的公司，包括ha ...

2010-07-10 17:41
浏览 3739
评论(1)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop博客资源

什么是MapReduce？

用hadoop估算圆周率PI(3.1415926)的值

hadoop的心跳回忆

hadoop的1TB排序

map的环形内存缓冲区

hadoop扫盲篇

说说hadoop的DFSOutputStream

hadoop资源汇总（持续更新中...）

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>