本月博客排行
年度博客排行
-
第1名
青否云后端云 -
第2名
zw7534313 -
第3名
大家都说我很棒 - liyihz2008
- wy_19921005
- gengyun12
- hbxflihua
- e_e
- luxurioust
- dbagirl
- zysnba
- robotmen
- Alsmile
- gaozzsoft
- jywhltj
- cpongo1
- leslie26
- qepwqnp
- 解宜然
- cuityang
- gashero
- sichunli_030
- fantaxy025025
- zhangdaiscott
- vipbooks
- wallimn
- gdpglc
- ssydxa219
- ranbuijj
- javashop
- jickcai
- hanbaohong
- johnsmith9th
- appalese
- gaojingsong
- weiyides
- 淡看人生
- java-007
- zhangyi0618
- AVI
- laiyangdeli
- liunancun
- xpenxpen
- 龙哥IT
- conkeyn
- nychen2000
- ouanui
- silverend
- lemonhandsome
- jveqi
最新文章列表
分布式文件系统:Getting Started with Hadoop(转载)
我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。
Hadoop 是大名鼎鼎的 Lucene 旗下的子项目,它原先是 Nutch 项目的组成部分,于2006 ...
nutch源代码分析之Fetcher
MapReduce:获取的urls集
输入:<url,CrawlDatum>, 按主机分块, 按hash排序
Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
通过多线程、异步map实现
调用已有的Nutch协议插件
FetcherOutput: <CrawlDatum, 网页内容Content&g ...
nutch源代码分析之Injector
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db ...
Google大表(Bigtable):结构化数据的分布存储系统[z]
九月 26, 2006翻译:Google大表(BigTable)大表(Bigtable):结构化数据的分布存储系统http://labs.google.com/papers/bigtable-osdi06.pdf{中是译者评论,程序除外}{本文的翻译可能有不准确的地方,详细资料请参考原文.}摘要bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普 ...