hadoop改进方面的胡思乱想

coderplay

浏览: 571863 次
性别:
来自: 广州杭州

最近访客更多访客>>

x_h_j123

liuxiao723846

汀雨晓洛

springcdma

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mapreduce&parallel

Hadoop Erlang 百度 CouchDB 数据挖掘

1. 我做数据挖掘的时候, 经常需要只对key分组,不必排序。目前把sort类给设为null能处理,但还是不尽人意。hadoop的机制是通过一个circle buffer 收集mapper输出的东西, 到了io.sort.mb * percent量的时候,就spill到disk, 而spill前使用排序,默认快排。之后reduce下载spill的东西, 进行merge, merge的时候使用了堆排。我的想法是通过一个hash,每个hash的元素是一个链表,存放相同key的所有值。不过这样就没circle buffer了,用不到其对stream缓存的优点，这个要仔细想想。

2. map之后要么直接写到hdfs(reducer 个数为0时), 要么同一道作业指定的reducer去处理这些东西. 这个机制很不灵活。有时候我的mapper输出，让不同的reducer处理不同的任务，输出不同的结果。目前hadoop虽然能处理,但太牵强了。如果mapper处理完之后，加一层转发机制。这时候可以少一次io, 而且灵活, NB. 如果能把数据像流一样处理,而且可以分流,汇集之类的,那更好。

3. 还是百度提出的老问题, 机器一般挂多块磁盘。单块磁盘的故障会导致系统认为整个节点down了, 这个修改相应的代码应该可以实现。slave报告的时候准确一点, 就可以只复制坏了的磁盘的数据了。

4. hadoop的任务跟踪能力太弱了,如果能做到和erlang那么NB，就厉害了

5. mapper的个数实际上是根据block数来定的, 线程太多, 消耗太大。

分享到：

hadoop上最多到底能放多少个文件? | hadoop源码分析之MapReduce(二)

2009-02-04 10:57
浏览 4389
评论(4)
查看更多

4 楼 coderplay 2011-07-19

conservatism 写道

sort设置成null也只能避免mapper spill时的排序吧，reducer端的排序可以改成hash，保证相同key的结果都在一起

map spill前和reduce的merge都会使用sort

3 楼 conservatism 2011-07-17

sort设置成null也只能避免mapper spill时的排序吧，reducer端的排序可以改成hash，保证相同key的结果都在一起

2 楼 coderplay 2009-02-08

知道这东西, erlang还有个disco. 目前最好的还是hadoop

1 楼 yawl 2009-02-07

你看过couchdb没有?我觉得idea真是不错。底层是erlang实现的，但可以用javascript写map/reduce程序。不知道用起来怎么样。

我前几周写了点erlang程序,实在是太受罪了。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论