论坛首页 Java企业应用论坛

最近闲着没事,准备把豆瓣所有的电影数据爬下来,再用lucene测试。

浏览 18526 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-11-08  
可以试试 nutch 爬虫
0 请登录后投票
   发表时间:2012-11-08  
iluoxuan 写道
傲世凡尘 写道
iluoxuan 写道
1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。

2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬

3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引

4:索引就一个库,做成增量更新,基于lucene4.0

不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教,


一起探讨阿,我在做第二步呵呵


爬下很容易啊 我都已经爬了一些 其实不用什么爬虫 我是定向爬 句爬爱情 标签的电影数据 , 首页 把 所有的页码 url先获取,然后 在里面获取电影详情的url,先准备这样爬,已经差不多了 ,很奇怪的豆瓣 256后 页 其实没数据 后面也有页面 不知道他那分页 怎么来的。我先暂时这样 爬小部分然后 把电影标签下所有的都爬

你做第二步的页面规则 怎么弄 我已经 转成成功movie对象了 现在搭建mybatis+spring ,不知道豆瓣会不会 封ip啊 呵呵

好像他的分页只能给你显示一千条数据.用标签组合去定向抓应该能抓的更多
0 请登录后投票
   发表时间:2012-11-08  
用正则表达式解析应该会更快.他的详情页面规则都差不多吧
0 请登录后投票
   发表时间:2012-11-29  
这个你可以看看,python的http://scrapy.org/。简单快捷。
或者是Nutch,基于hadoop.
频繁爬网站的问题,涉及robots.txt协议。你自己可以研究。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics