百度爬虫类型（Baiduspider)及robots设置方法 - 黑麦(Ryee) - 搜索引擎营销SEO 3.0 - ITeye博客

`

Ryee

浏览: 273574 次
性别:
来自: 上海

最近访客更多访客>>

faxMonkey

kt007time

u010833547

祥之北漂

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

onlyjing：你好！我是猎头顾问only ,有北京知名网络安全公司高级web ...
python:web搭建
dr88：有时间也来做一个，谢谢分享
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版
Ryee：百度赚钱依靠页面看来承载广告，所以1、增加页面2、提升单位页面 ...
百度如何赚钱
jeans_1312：路过，学习一下
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版
Ryee：坚持喝了一周的红豆薏米汤，适当的运动量辅助排汗，湿气除的不错。 ...
夏季南方去体内湿气-养生方法

百度爬虫类型（Baiduspider)及robots设置方法

博客分类：

百度优化

百度 Mobile HTML

阅读更多

Baiduspider的user-agent是什么？百度各个产品使用不同的user-agent：

产品名称	对应user-agent
无线搜索	Baiduspider-mobile
图片搜索	Baiduspider-image
视频搜索	Baiduspider-video
新闻搜索	Baiduspider-news
百度搜藏	Baiduspider-favo
百度联盟	Baiduspider-cpro
网页以及其他搜索	Baiduspider

你可以根据各产品不同的user-agent设置不同的抓取规则，如果你想完全禁止百度所有的产品收录，可以直接对Baiduspider设置禁止抓取。在robots.txt中禁止爬虫抓取（robots.txt写作方法）

以下robots实现禁止所有来自百度的抓取：
User-agent: Baiduspider
Disallow: /

以下robots实现仅禁止来自百度视频搜索的抓取：
User-agent: Baiduspider-video
Disallow: /

以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录：
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/
请注意：Baiduspider-cpro抓取的网页并不会建入索引，只是执行与客户约定的操作，所以不遵守robots协议，如果 Baiduspider-cpro给您造成了困扰，请联系union1@baidu.com。

分享到：

怎样做好SEO | 网站定位与SEO策略关系

2010-04-20 10:26
浏览 1896
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

BaiduSpider，一个爬取百度搜索结果的爬虫.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

BaiduSpider.zip: 一个爬取百度搜索结果的爬虫，目前支持百度网页搜索，百度图片搜索，百度知道搜索，百度视频搜索，百度资讯搜索，百度文库搜索，百度经验搜索和百度百科搜索。爬虫（Web Crawler）是一种自动化程序，用于从互联网上...

您所查看的网页不允许百度保存其快照的设置方法: 今天在百度搜索一个页面的时候，因为页面已经被删除，所以就自然而然用百度快照，打开百度快照，却显示：对不起，您所查看的网页不允许百度保存其快照，所以想到把如何设置禁止百度快照缓存的方法写下来，方法如下：...

百度有价值内容 baidu SEO: 23、如果链接成为死链之前已被百度搜索引擎收录，设置404后请不要再设置robots封禁，否则会影响搜索引擎对链接的判断和处理。 24、站点ip变更怎么办？登录百度站长平台，使用抓取诊断工具，抓取诊断工具会检查站点...

Nginx反爬虫策略，防止UA抓取网站: 目前网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫，为防止网站有可能会被别人爬，通过配置Nginx, 我们可以...

在线生成Robots.txt 的Js脚本: 内容索引:脚本资源,Ajax/JavaScript,Robots　在线生成Robots.txt 的Js脚本，能帮助新手快速正确的建立网站的Robots.txt文件，建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

百度蜘蛛的代码分析与饲养技巧: 研究se爬行规律对于网站优化意义重大，特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码代表的具体含义：

模拟百度谷歌等蜘蛛抓取访问工具: 该工具集成了各大常见蜘蛛UA，模拟这些蜘蛛UA访问抓取网站，目前网络上很流行蜘蛛挂马，通过该工具模拟访问可以分析网站是否被挂针对搜索引擎的挂马，可以模拟蜘蛛查看源码。用法也很简单，打开以后输入目标地址，...

BaiduSpider-web:百度蜘蛛网页版: BaiduSpider网页版此版本为Beta阶段的BaiduSpider网页版，演示： ://baidus.now.sh

scrapy 爬百度，bing大图: python 通过scrapy框架，根据关键字爬取百度和bing大图注意： 1.修改commands/crawl.py run函数为： def run(self, args, opts): if len(args) raise UsageError() # elif len(args) > 1: # raise UsageError...

如何建设对BaiduSpider友好的站点: 站点结构 • 逻辑清晰的链接层次结构 • PC/移动适配 • 数据主动提交 • 避免目录被黑/ 售卖页面结构 • 不建议使用JS 加载页面内容 • 布局符合移动友好性标准 • 索引页&&索引 ...• 死链反馈

利用php抓取蜘蛛爬虫痕迹的示例代码: 前言相信许多的站长、博主可能最关心的无非就是自己网站的收录情况，一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面，不过，如果用... 'Baidu' => 'baiduspider', 'Yahoo'

Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为: 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾，下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析，日志文件所在目录：/usr/local/nginx/logs/access.log，...

用php实现让页面只能被百度gogole蜘蛛访问的方法: 普通用户与搜索引擎蜘蛛爬行的区别在于发送的user agent，看网站日志文件能发现百度蜘蛛名字包含Baiduspider, 而google的则是Googlebot, 这样我们可以通过判断发送的user agent来决定要不要取消普通用户的访问，编写...

urllib方法获取静态页面数据方法: urllib方法获取静态页面数据方法 class BaiduSpider(object): def __init__(self): self.baseurl = "http://tieba.baidu.com/f?" self.headers = {"User-Agent":"Mozilla/5.0 "} #获取页面 def getPage...

Nginx禁止指定UA访问的方法: 本文介绍 Nginx 禁止指定 UA 访问的配置...因为你懂的原因，并不是太希望 Baidu 这类爬虫来我的网站，所以在 Nginx 中使用 if 对 UA 进行判断： if ($http_user_agent ~* qihoobot|Baidu|Baiduspider|Baiduspider-ima

阿铭IE蜘蛛模拟伪装工具.exe: 阿铭IE蜘蛛模拟伪装工具.exe 可以把IE模拟成任意蜘蛛例如: 谷歌 GoogleBot 百度 Baiduspider 可以伪装成任意形式. 可以查看只允许蜘蛛抓去的网站内容. 适合SEO站长使用作者QQ:57544477

php实现屏蔽掉黑帽SEO的搜索关键字: 由于Baiduspider对每个站点的抓取额是有限定的，所以这些垃圾搜索结果页被百度收录，会导致其它有意义的页面因配额问题不被收录，同时可能因百度处理垃圾页面而影响网站正常排名。具体的参考百度官方的页面...

PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT: 百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT'])...

Global site tag (gtag.js) - Google Analytics