由于我们想做一个垂直搜索引擎, 所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的?呵呵这是第一步
现在我有4个疑问,希望能有人给点意见。
1、如何找到我们所需要的领域资源?
显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这些网站。但是这有个问题就是这些网站之外的资源该如何爬取?这个我看到有关资料中讲的方法是,根据已收集资源的链接来判断爬取,这个方法我觉得也还行。不知道还有没有其他思路?
2、如果是定向爬取一些特定的网站,如何抓取网站中的动态网页(常叫deep web)?
我觉得这是个大问题,现在这种动态的资源(主要是那些没有指向它的层次链接的)现在实在是太多,更要命的是这些网页往往对于垂直搜索引擎很重要,关于这些网页的爬取资料中讲到主要方法是:模拟表单提交,这个没有深入的研究过,不知难度和效率怎么样,希望有经验的人给点建议。
3、网页的更新策略?
对我们爬下来的网页已经新生成的网页,我们有怎么确定更新策略呢?比如那些静态的网页我想很常时间再爬一次也行就可以了,而对于那些经常修改很对于我们又很重要的网页是不是能几个小时就更新一次。但是这些更新策略该如何确定呢?有关资料上说了若干策略,分析网页的重要行,更新的频率等。
4、性能的评价
我想对于如何一个系统都应该有一个手段对其性能进行评价,对于我们这样一个垂直爬虫该如何评价其性能呢?
以上是我遇到的主要疑问,希望能有人与我多交流。
我会陆续把我搜集到的资料贴上来,请大家多关注。
分享到:
相关推荐
非常简单的一个闲鱼爬虫,可以爬取自己要求的价格区间的商品
python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧python爬虫,爬取贴吧...
python爬虫利用selenium爬取淘宝和京东商品信息。实现了无头浏览器进行爬取,即不需要启动自己的浏览器即可完成爬取信息的功能,而且避免了网站的反爬机制。python爬虫利用selenium爬取淘宝和京东商品信息。实现了...
[python爬虫] Selenium爬取新浪微博内容及用户信息 http://blog.csdn.net/eastmount/article/details/51231852 [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上) 主要爬取内容包括: 新浪...
python爬虫爬取企业详细信息,并保存到mysql数据库,包含代理IP的使用。
爬虫作业(爬取免费简历).py
用Python爬取猫途鹰旅游网站的爬虫代码; 爬取到的数据有:酒店和景点信息,酒店评论信息,景点评论信息; 内附爬虫过程的思路和难点介绍
电影天堂里面的数据还是非常丰富的,这次的爬虫demo,是对电影天堂中的电影数据进行爬取,包括电影片名,导演,主演,演员等信息以及最后的迅雷下载地址。 经过4000部电影的爬取测试,我对代码多次进行优化,目前...
geturl('XX XX 首页', page=$page) // 这里填写关键字,支持多个关键字搜索,$page 为爬取页数,默认每页爬取 10 条 建议采用三个关键字搜索,保证搜索结果准确性 eg. geturl('北京 公司 首页', page=10) 爬虫结果...
基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库
爬取京东商品信息,进行数据分析,构建商城网站
该程序通过分析youtobe红人信息的源码标签,获取网页信息,然后定向筛选;分页处理,连接跳转处理,访问异常处理
python爬虫--爬取网站中的多个网页
Python爬虫实例-爬取豆瓣Top250-保存为表格
该项目是一个基于Scrapy框架的豆瓣音乐爬虫,用于爬取豆瓣音乐TOP250的音乐信息以及这些音乐的评论信息。爬虫分为两个部分: 豆瓣音乐信息爬虫 (douban_music_spider): 爬取豆瓣音乐TOP250的音乐的基本信息,并保存...