最近闲着没事，准备把豆瓣所有的电影数据爬下来，再用lucene测试。

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 18526 次

锁定老帖子主题：最近闲着没事，准备把豆瓣所有的电影数据爬下来，再用lucene测试。精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
隐者醉逍遥等级: 初级会员性别: 文章: 5 积分: 30 来自: 湖南	发表时间：2012-11-08 可以试试 nutch 爬虫
返回顶楼	回帖地址 0 0 请登录后投票

隐者醉逍遥等级: 初级会员性别: 文章: 5 积分: 30 来自: 湖南	发表时间：2012-11-08 iluoxuan 写道傲世凡尘写道 iluoxuan 写道 1：大概要测试10g数据，保存到数据库中，然后，测试lucene等。 2：关于爬豆瓣电影数据页面规则已经分析好了，打算用深度搜索吧，就jsoup解析，开几个线程同时爬 3：然后把爬下来的数据批量插入到mysql中，再mysql中到处建立索引 4：索引就一个库，做成增量更新，基于lucene4.0 不知道我这个想法怎么样，以为工作不是搞lucene的，而且近期美事情，所有想锻炼下。求各位大牛指教，一起探讨阿，我在做第二步呵呵爬下很容易啊我都已经爬了一些其实不用什么爬虫我是定向爬句爬爱情标签的电影数据，首页把所有的页码 url先获取，然后在里面获取电影详情的url，先准备这样爬，已经差不多了，很奇怪的豆瓣 256后页其实没数据后面也有页面不知道他那分页怎么来的。我先暂时这样爬小部分然后把电影标签下所有的都爬你做第二步的页面规则怎么弄我已经转成成功movie对象了现在搭建mybatis+spring ，不知道豆瓣会不会封ip啊呵呵好像他的分页只能给你显示一千条数据.用标签组合去定向抓应该能抓的更多
返回顶楼	回帖地址 0 0 请登录后投票

隐者醉逍遥等级: 初级会员性别: 文章: 5 积分: 30 来自: 湖南	发表时间：2012-11-08 用正则表达式解析应该会更快.他的详情页面规则都差不多吧
返回顶楼	回帖地址 0 0 请登录后投票

hengly88 等级: 初级会员性别: 文章: 54 积分: 30 来自: 北京	发表时间：2012-11-29 这个你可以看看，python的http://scrapy.org/。简单快捷。或者是Nutch，基于hadoop. 频繁爬网站的问题，涉及robots.txt协议。你自己可以研究。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: