论坛首页 Java企业应用论坛

对抓取回来的海量原始网页存储结构设计

浏览 18591 次
精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
作者 正文
   发表时间:2009-09-15  
引用

+ab
   +cd
      +ef
         -abcdefghj  


这样是为了更加方便索引吧?
0 请登录后投票
   发表时间:2009-09-15  
如果你用hadoop,可以使用HBase,使用反向的域名作为行的key做一张raw web page的大表。
0 请登录后投票
   发表时间:2009-09-15  
数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.

同样hypertable可以建立在hadoop集群上,

表的设计使用反向域名作为row key作大表.

在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做.

0 请登录后投票
   发表时间:2009-09-15  
lovejuan1314 写道
数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.

同样hypertable可以建立在hadoop集群上,

表的设计使用反向域名作为row key作大表.

在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做.



这种方法应该可以
0 请登录后投票
   发表时间:2009-09-15  
lovejuan1314 写道
数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.

同样hypertable可以建立在hadoop集群上,

表的设计使用反向域名作为row key作大表.

在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做.



Hypertable除了百度在用 国内还有人用吗。。。
0 请登录后投票
   发表时间:2009-09-15  
SLrz0wY5xWnE 对应字母D
Tb2ggwdpwmLC 对应字母B
E7v0ggRukGXKdPKTDw 对应Japan
G+2k0Aw+kzPkfOOAGA 对应diary
有知道这是怎么加密的吗?
0 请登录后投票
   发表时间:2009-09-16  
欢迎搞搜索和喜欢搞搜索的朋友一起交流
群:78943207
0 请登录后投票
   发表时间:2009-09-16  
一般做的都是垂直搜索吧,数据量应该不是很大.用数据库也可以凑合的....
0 请登录后投票
   发表时间:2009-09-16  
你用的什么爬虫工具???
0 请登录后投票
   发表时间:2009-09-16  
InnocentBoy 写道
你用的什么爬虫工具???

没有用什么工具,是自己在写
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics