对抓取回来的海量原始网页存储结构设计

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 18591 次

锁定老帖子主题：对抓取回来的海量原始网页存储结构设计精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
作者	正文
java菜菜鸟等级: 初级会员性别: 文章: 47 积分: 0 来自: 广州	发表时间：2009-09-15 引用 +ab +cd +ef -abcdefghj 这样是为了更加方便索引吧?
返回顶楼	回帖地址 0 1 请登录后投票

baseworld 等级: 初级会员性别: 文章: 267 积分: 20 来自: 上海	发表时间：2009-09-15 如果你用hadoop，可以使用HBase，使用反向的域名作为行的key做一张raw web page的大表。
返回顶楼	回帖地址 0 1 请登录后投票

lovejuan1314 等级: 初级会员性别: 文章: 23 积分: 40 来自: 北京	发表时间：2009-09-15 数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做.
返回顶楼	回帖地址 0 1 请登录后投票

whaosoft 等级: 性别: 文章: 3179 积分: 100 来自: 北京	发表时间：2009-09-15 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 这种方法应该可以
返回顶楼	回帖地址 0 0 请登录后投票

baseworld 等级: 初级会员性别: 文章: 267 积分: 20 来自: 上海	发表时间：2009-09-15 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. Hypertable除了百度在用国内还有人用吗。。。
返回顶楼	回帖地址 0 0 请登录后投票

iamct 等级: 初级会员性别: 文章: 11 积分: 10 来自: 北京	发表时间：2009-09-15 SLrz0wY5xWnE 对应字母D Tb2ggwdpwmLC 对应字母B E7v0ggRukGXKdPKTDw 对应Japan G+2k0Aw+kzPkfOOAGA 对应diary 有知道这是怎么加密的吗？
返回顶楼	回帖地址 0 4 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-16 欢迎搞搜索和喜欢搞搜索的朋友一起交流群:78943207
返回顶楼	回帖地址 0 0 请登录后投票

shadowlin 等级: 初级会员性别: 文章: 60 积分: 80 来自: 北京	发表时间：2009-09-16 一般做的都是垂直搜索吧,数据量应该不是很大.用数据库也可以凑合的....
返回顶楼	回帖地址 0 0 请登录后投票

InnocentBoy 等级: 性别: 文章: 261 积分: 132 来自: 杭州	发表时间：2009-09-16 你用的什么爬虫工具？？？
返回顶楼	回帖地址 0 0 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-16 InnocentBoy 写道你用的什么爬虫工具？？？没有用什么工具，是自己在写
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: