锁定老帖子 主题:对抓取回来的海量原始网页存储结构设计
精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
|
|
---|---|
作者 | 正文 |
发表时间:2009-09-15
引用 +ab +cd +ef -abcdefghj 这样是为了更加方便索引吧? |
|
返回顶楼 | |
发表时间:2009-09-15
如果你用hadoop,可以使用HBase,使用反向的域名作为行的key做一张raw web page的大表。
|
|
返回顶楼 | |
发表时间:2009-09-15
数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.
同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. |
|
返回顶楼 | |
发表时间:2009-09-15
lovejuan1314 写道 数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.
同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 这种方法应该可以 |
|
返回顶楼 | |
发表时间:2009-09-15
lovejuan1314 写道 数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好.
同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. Hypertable除了百度在用 国内还有人用吗。。。 |
|
返回顶楼 | |
发表时间:2009-09-15
SLrz0wY5xWnE 对应字母D
Tb2ggwdpwmLC 对应字母B E7v0ggRukGXKdPKTDw 对应Japan G+2k0Aw+kzPkfOOAGA 对应diary 有知道这是怎么加密的吗? |
|
返回顶楼 | |
发表时间:2009-09-16
欢迎搞搜索和喜欢搞搜索的朋友一起交流
群:78943207 |
|
返回顶楼 | |
发表时间:2009-09-16
一般做的都是垂直搜索吧,数据量应该不是很大.用数据库也可以凑合的....
|
|
返回顶楼 | |
发表时间:2009-09-16
你用的什么爬虫工具???
|
|
返回顶楼 | |
发表时间:2009-09-16
InnocentBoy 写道 你用的什么爬虫工具???
没有用什么工具,是自己在写 |
|
返回顶楼 | |