`
Ryee
  • 浏览: 273574 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

百度爬虫类型(Baiduspider)及robots设置方法

阅读更多
Baiduspider的user-agent是什么?百度各个产品使用不同的user-agent:
产品名称 对应user-agent
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
网页以及其他搜索 Baiduspider


你可以根据各产品不同的user-agent设置不同的抓取规则,如果你想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。在robots.txt中禁止爬虫抓取(robots.txt写作方法

以下robots实现禁止所有来自百度的抓取:
User-agent: Baiduspider
Disallow: /

以下robots实现仅禁止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /

以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/
请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果 Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。






分享到:
评论

相关推荐

    BaiduSpider,一个爬取百度搜索结果的爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    BaiduSpider.zip

    一个爬取百度搜索结果的爬虫,目前支持百度网页搜索,百度图片搜索,百度知道搜索,百度视频搜索,百度资讯搜索,百度文库搜索,百度经验搜索和百度百科搜索。 爬虫(Web Crawler)是一种自动化程序,用于从互联网上...

    您所查看的网页不允许百度保存其快照的设置方法

    今天在百度搜索一个页面的时候,因为页面已经被删除,所以就自然而然用百度快照,打开百度快照,却显示:对不起,您所查看的网页不允许百度保存其快照,所以想到把如何设置禁止百度快照缓存的方法写下来,方法如下:...

    百度有价值内容 baidu SEO

    23、如果链接成为死链之前已被百度搜索引擎收录,设置404后请不要再设置robots封禁,否则会影响搜索引擎对链接的判断和处理。 24、站点ip变更怎么办? 登录百度站长平台,使用抓取诊断工具,抓取诊断工具会检查站点...

    Nginx反爬虫策略,防止UA抓取网站

    目前网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,为防止网站有可能会被别人爬,通过配置Nginx, 我们可以...

    在线生成Robots.txt 的Js脚本

    内容索引:脚本资源,Ajax/JavaScript,Robots 在线生成Robots.txt 的Js脚本,能帮助新手快速正确的建立 网站的Robots.txt文件,建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

    百度蜘蛛的代码分析与饲养技巧

    研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码代表的具体含义:

    模拟百度谷歌等蜘蛛抓取访问工具

    该工具集成了各大常见蜘蛛UA,模拟这些蜘蛛UA访问抓取网站,目前网络上很流行蜘蛛挂马,通过该工具模拟访问可以分析网站是否被挂针对搜索引擎的挂马,可以模拟蜘蛛查看源码。 用法也很简单,打开以后输入目标地址,...

    BaiduSpider-web:百度蜘蛛网页版

    BaiduSpider网页版 此版本为Beta阶段的BaiduSpider网页版,演示: ://baidus.now.sh

    scrapy 爬百度,bing大图

    python 通过scrapy框架,根据关键字爬取百度和bing大图 注意: 1.修改commands/crawl.py run函数为: def run(self, args, opts): if len(args) raise UsageError() # elif len(args) > 1: # raise UsageError...

    如何建设对BaiduSpider友好的站点

    站点结构 • 逻辑清晰的链 接层次结构 • PC/移动适配 • 数据主动提交 • 避免目录被黑/ 售卖 页面结构 • 不建议使用JS 加载页面内容 • 布局符合移动 友好性标准 • 索引页&&索引 ...• 死链反馈

    利用php抓取蜘蛛爬虫痕迹的示例代码

    前言 相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用... 'Baidu' => 'baiduspider', 'Yahoo'

    Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为

    做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,...

    用php实现让页面只能被百度gogole蜘蛛访问的方法

    普通用户与搜索引擎蜘蛛爬行的区别在于发送的user agent,看网站日志文件能发现百度蜘蛛名字包含Baiduspider, 而google的则是Googlebot, 这样我们可以通过判断发送的user agent来决定要不要取消普通用户的访问,编写...

    urllib方法获取静态页面数据方法

    urllib方法获取静态页面数据方法 class BaiduSpider(object): def __init__(self): self.baseurl = "http://tieba.baidu.com/f?" self.headers = {"User-Agent":"Mozilla/5.0 "} #获取页面 def getPage...

    Nginx禁止指定UA访问的方法

    本文介绍 Nginx 禁止指定 UA 访问的配置...因为你懂的原因,并不是太希望 Baidu 这类爬虫来我的网站,所以在 Nginx 中使用 if 对 UA 进行判断: if ($http_user_agent ~* qihoobot|Baidu|Baiduspider|Baiduspider-ima

    阿铭IE蜘蛛模拟伪装工具.exe

    阿铭IE蜘蛛模拟伪装工具.exe 可以把IE模拟成任意蜘蛛 例如: 谷歌 GoogleBot 百度 Baiduspider 可以伪装成任意形式. 可以查看只允许蜘蛛抓去的网站内容. 适合SEO站长使用 作者QQ:57544477

    php实现屏蔽掉黑帽SEO的搜索关键字

    由于Baiduspider对每个站点的抓取额是有限定的,所以这些垃圾搜索结果页被百度收录,会导致其它有意义的页面因配额问题不被收录,同时可能因百度处理垃圾页面而影响网站正常排名。  具体的参考百度官方的页面...

    PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT

    百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT'])...

Global site tag (gtag.js) - Google Analytics