`
lzj0470
  • 浏览: 1243529 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Robots.txt 协议标准

阅读更多

近期有很多站长咨询,怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问,我们对《Robots.txt 协议标准》进行了翻译,希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

下面我们就来详细介绍一下它的使用方法:

Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。

例如:
如果您的网站地址是 http://www.yourdomain.com/
那么,该文件必须能够通过 http://www.yourdomain.com/robots.txt 打开并看到里面的内容。

格式:

User-agent :

用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该 项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow :

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

举例:
例一:"Disallow:/help"
是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二:"Disallow:/help/"
是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。
例三:Disallow记录为空

说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

#:
Robots.txt 协议中的注释符。

举例:
例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html

例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。
如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:
User-agent: *
Disallow: /cgi/

User-agent: slurp
Disallow:

例三:禁止任何搜索引擎抓取我的网站,设置方法如下:
User-agent: *
Disallow: /

例四:只禁止某个搜索引擎抓取我的网站
如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:
User-agent: slurp
Disallow: /

分享到:
评论

相关推荐

    grobotstxt:grobotstxt是Google robots.txt解析器和匹配器库的本地Go端口

    机器人排除协议(REP)是一种标准,使网站所有者可以通过具有特定语法的简单文本文件来控制自动客户端(即搜寻器)可以访问哪些URL。 它是众所周知的互联网的基本组成部分之一,也是使搜索引擎能够运行的基础。 ...

    爬取《es6标准入门》、自动推文到掘金、站点性能分析;高级爬虫、自动化UI测试、性能分析;.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    wget是一个从网络上自动下载文件的自由工具

    在递归下载的时候,wget遵循Robot Exclusion标准(/robots.txt). wget可以在下载的同时,将链接转换成指向本地文件,以方便离线浏览。 wget非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性.如果是由于...

    聚惠星商城 DTS-SHOP.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    jquery-oembed-all:改进了jquery-oembed项目的fork

    这个项目是DEAD 。... 但是,某些网站(例如bandcamp)由于其robots.txt文件而使YQL无法正常工作。 随着时间的流逝,我将删除一些经过硬编码的提供程序,而是使用OGP来提供标准的嵌入布局并减小文件大小。 该

    Sitemap Explorer-crx插件

    扩展功能:-自动检测在您开发,管理或分析的任何网站的robots.txt文件中声明的链接。 -以易于阅读的形式显示文件的XML内容。 -验证XML语法(支持标准XML和Atom协议)。 -一键式将URL从XML导出到本地CSV文件。 -包含...

    搜索引擎优化高级编程(PHP版)

    5.2.2 robots.txt模式排除 5.3 常见重复页面的解决方案 5.3.1 打印友好的页面 5.3.2 导航链接和眉毛导航 5.3.3 相似页面 5.3.4 具有重复Meta标签或Title值的页面 5.3.5 URL规范化 5.3.6 基于URL的会话ID 5.3.7 其他...

    SEO编程PHP中文版

    5.2.2 robots.txt模式排除 5.3 常见重复页面的解决方案 5.3.1 打印友好的页面 5.3.2 导航链接和眉毛导航 5.3.3 相似页面 5.3.4 具有重复Meta标签或Title值的页面 5.3.5 URL规范化 5.3.6 基于URL的会话ID ...

    hadoop中文文档

    例如:查询、请求一个DNS,或者是 请求、分析一个robots.txt文件。--这些都是在进行下一步之前所要做的事情。 1.2 Pre selector :预选择器。查看爬虫的域,看是否这个URL已经被处理(捉取)过了。如果被捉取过了,...

    wget命令用法

    wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本 完全重建原始站点的目录结构 这又常被称作”递归下载” 在递归下载的时候 wget 遵循Robot Exclusion标准 robots txt wget可以在下载的同时 将链接...

Global site tag (gtag.js) - Google Analytics