`
yunsamzhang
  • 浏览: 69123 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
邵铮的PPT,关于hive的架构/原理/优化,研究hive不可不看 http://www.slideshare.net/zshao 更多的hive presentation ppt http://wiki.apache.org/hadoop/Hive/Presentations hadoop 源代码分析最好最全的 http://caibinbupt.iteye.com/ 有很多关于hadoop和hive的思考 http://coderplay.iteye.com/
1、MapReduce来龙去脉 MapReduce是一个说难懂也难懂、说好懂也好懂的概念。 说它难懂,是因为,如果你只理论上的去学习、去理解,确实很难懂。 说它好懂,是因为,如果你亲手在hadoop运行过几个MapReduce的job,并稍微学点hadoop的 ...
一、hadoop不适合计算密集型的工作 以前看过一个PPT: Hadoop In 45 Minutes or Less ,记得上面说hadoop不适合计算密集型的工作,比如计算PI后100000位小数。 但是,前几天,我却发现了在hadoop自带的examples里,竟然有PiEstimator这个例子! ...
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,而datanode/tasktracker属于slaves。master只有一个,而slaves有多个。 namenode与datanode之间的通信,jobtracker与tasktracker直接的通信,都是通过“心跳”完成的。 以前看过hadoop心跳原理的源代码,今天再回忆一下,呵呵,所以叫“心跳回忆”。 1、心跳机制 心跳的机制大概是这样的: 1) master启动的时候,会开一个ipc server在那里。 2) slave启动时,会连接master,并每隔3秒钟主 ...
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序;而在1460个节点的集群,排序1TB数据只花了62秒。 这么惊人的数据处理能力,是不是让你印象深刻呢?呵呵 下面我们来看看排序的过程吧。 ...
hadoop在执行MapReduce任务时,在map阶段,map函数产生的输出,并不是直接写入磁盘的。为了提高效率,它将输出结果先写入到内存中(即环形内存缓冲区,默认大小100M),再从缓冲区(溢)写入磁盘。 下面我们就来看看这段代码 ...
一、Hadoop是什么? 答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce       HDFS是分布式文件系统,用于分布式存储海量数据。       MapReduce是分布式数据处理模型,本质是并行处理。 二、多少数据算海量数据? 答:个人认为,TB(1024GB)级别往上就可以算海量数据。 三、谁在使用hadoop? N多大型互联网公司,这里列的比较全: http://wiki.apache.org/hadoop/PoweredBy 在国内,包括中国移动、百度、网易、淘宝、腾讯 ...
当我们用命令: hadoop fs -copyFromLocal localfile hdfs://... 将本地文件复制到HDFS时,其背后的复制过程是怎样的?本地文件通过什么方式传输到datanode上的呢? 这里面很显然的是: 1、文件在多个电脑之间进行了传输(至少有2台电脑:本地电脑和一个datanode节点)。 2、如果文件超过一个block的大小(默认是64M),那么将一个文件分割成多个block是在哪里发生的? 带着这些疑问,我们来解读一下源代码。 一、找到“幕后英雄” 通过简单的跟踪,就会发现这一功能是由FileSystem类的copyFromLocalFile方法完成 ...
1、Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看 http://cloud21.iteye.com/blog/607175 2、关于Hadoop的两本书 -- 有电子书下载 http://caibinbupt.iteye.com/blog/418846 3、JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错 http://hadoop.group.iteye.com/ 4、豆瓣hadoop小组 http://www.douban.com/group/156966/ 5、严重推荐Cloudera -- 专门研究和培训 hadoop 的公司,包括ha ...
Global site tag (gtag.js) - Google Analytics