搜索引擎爬虫程序一览表大全

nesta13

浏览: 114527 次
性别:
来自: 广州

最近访客更多访客>>

jerrywang2020

xiadw

石头的日记

390560386

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

搜索引擎 Google 算法百度 Yahoo

高<nobr>强度</nobr>爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬虫
高强度爬虫，有时会从多个IP地址启动多个爬虫程序！
由于算法问题，百度爬虫对相同页面会多次发出请求（尤其是首页），令人烦恼。
推广<nobr>效果</nobr>好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬虫，分别是雅虎中国和美国总部的爬虫
高强度爬虫，有时会从多个IP地址启动多个爬虫程序！
比较规范的爬虫，看参考其网址，设定爬虫访问间隔。（但需要考虑同时出现多个yahoo爬虫）
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差，大量扫描无实际意义的页面，对动态链接网站负担很大
推广效果差。
sogou spider
搜狗爬虫
算法差，大量扫描无实际意义的页面，对动态链接网站负担很大
推广效果差。

中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.<nobr>google</nobr>.com/bot.html)
Google爬虫
算法优秀，多为访问有实际内容的页面
推广效果好。
Mediapartners-Google/2.1
google点击<nobr>广告</nobr>爬虫
特点未知
OutfoxBot/0.5 (for internet experiments; http://; <script language="JavaScript" type="text/javascript">  </script>outfoxbot@gmail.com outfoxbot@gmail.com <noscript></noscript>)
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫
作用未知

其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
（欢迎补充资料）
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; <nobr>Windows NT</nobr>; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
（欢迎补充资料）
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬虫。已被google收购？（欢迎补充资料）
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
据说是中搜爬虫。（欢迎补充资料）
iearthworm/1.0, <script language="JavaScript" type="text/javascript">  </script>iearthworm@yahoo.com.cn iearthworm@yahoo.com.cn <noscript></noscript>
TMCrawler
WebNews http.pl

RSS扫描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索扫描器
\rss.asp feedsky_spider http://www.feedsky.com
一款rss扫描器，有兴趣者进入此网站添加您的rss

转载自：CSDN

分享到：

毕业设计题目最终确定 | 开源网络爬虫程序(spider)一览

2007-10-16 08:17
浏览 5262
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论