论坛首页 Java企业应用论坛

对抓取回来的海量原始网页存储结构设计

浏览 18586 次
精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
作者 正文
   发表时间:2009-09-13   最后修改:2009-12-15
最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题
找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教
   发表时间:2009-09-13   最后修改:2009-09-13
主要是针对原始网页的存储和对原始网页加工后的格式数据的索引存储,一起讨论下吧,这个应该有点意思吧,呵呵
0 请登录后投票
   发表时间:2009-09-14  
这就完了?
LZ总得象征性的抛块砖吧?
0 请登录后投票
   发表时间:2009-09-14   最后修改:2009-09-14
目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路
0 请登录后投票
   发表时间:2009-09-14  
tangmi 写道
目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路


对url进行md5, 假如md5的值为  abcdefghj   则存储为
引用

+ab
   +cd
      +ef
         -abcdefghj  


hadoop file system 对小文件是不行的。 效率不高。 可以看看mogile filesystem。
0 请登录后投票
   发表时间:2009-09-14   最后修改:2009-09-14
谢谢dengyin2000,我会去看的。
大家还有什么建议尽管讨论
0 请登录后投票
   发表时间:2009-09-14  
dengyin2000 写道
tangmi 写道
目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路


对url进行md5, 假如md5的值为  abcdefghj   则存储为
引用

+ab
   +cd
      +ef
         -abcdefghj  


hadoop file system 对小文件是不行的。 效率不高。 可以看看mogile filesystem。


您的意思是对抽取出来的格式化文件信息进行存储还是原始网页?原始网页这样存储有点不明白,请指教
0 请登录后投票
   发表时间:2009-09-14  
大家没有对这个感兴趣的吗
0 请登录后投票
   发表时间:2009-09-14  
我最近也在做这么个事,但是也没什么好的思路。

自己写爬虫,然后爬回来的页面,自己解析,在将数据提取出来,建立索引或者存数据库!
0 请登录后投票
   发表时间:2009-09-14  
lianj_lee 写道
我最近也在做这么个事,但是也没什么好的思路。

自己写爬虫,然后爬回来的页面,自己解析,在将数据提取出来,建立索引或者存数据库!


存数据库是不行的,数据量太大了
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics