在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。
robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:
robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.heremore.cn
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是允许所有的搜索机器人访问
www.heremore.cn站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
分享到:
相关推荐
robots写法,怎么写robots写法
dokku robots.txt 为应用程序创建 ,可以将其设置为允许或禁止对该应用程序进行网络抓取。 这对于部署您不希望被搜索引擎索引的网站很有用。 例如,您可能想部署一个允许使用机械手的生产应用程序,以及一个不允许...
Laravel开发-laravel-robotstxt 根据Laravel应用程序环境动态设置robots.txt内容。
WP 机器人 txt 这是一个单一服务插件,它在阅读设置 WordPress 管理页面上添加一个字段,允许您编辑robots.txt文件内容。限制如果您的服务器上有robots.txt文件,则此插件将不起作用。 WordPress 在默认情况下建议的...
检查机器人。...通过robots.txt缓存,隐私设置和公共robots.txt文件存档。 ::完整的变更日志https://www.robots-viewer.com/changelog ::公共统计https://www.robots-viewer.com/statistics 支持语言:English
易优cms robots文件生成器插件.zip
为每个域提供不同 robots.txt 的 Umbraco 包。 用法 在以下位置安装 Umbraco 包: : 安装后,只需添加一些文本文件并将一些应用程序设置添加到您的 web.config 以将它们映射到域。 例如: <!-- ...
Nuxt.js模块,该模块注入了中间件以生成robots.txt文件 设置 将@nuxtjs/robots依赖项添加到您的项目中 yarn add @nuxtjs/robots # or npm install @nuxtjs/robots 添加@nuxtjs/robots的modules的部分nuxt.config....
给 favicon.ico 和 robots.txt 设置过期时间; 这里为 favicon.ico 为 99 天,robots.txt 为 7 天并不记录 404 错误日志 如何限制特定IP地址或IP地址段的访问? Nginx可以缓存静态文件吗?如何配置缓存? Nginx可以...
8.简单设置关键字就能生成垃圾站的程序.rar 9.ASP搜索引擎蜘蛛爬行日志生成程序.rar 10.搜易网站登录器.rar 11.检查网站死链工具(xenu).rar 12.51snap(SEO快捕手).rar 13.维度统计.rar .......... 推荐seo教程...
Laravel开发-robots robots.txt生成器
为所有静态/预渲染/动态/服务器端页面生成sitemap和robots.txt。 目录 入门 入门 安装 yarn add next-sitemap -D 创建配置文件 next-sitemap在您的项目根目录下需要一个基本的配置文件( next-sitemap.js ) ...
在你已经安装了此插件后,你可以通过后台左右的网站设置管理中的管理引擎爬虫进入管理页,你也可以通过插件管理中的Robots Manager后的管理进入管理页。 2、ZBLOG的哪些文件是应该拦截的? 不允许搜索引擎...
在你已经安装了此插件后,你可以通过后台左右的网站设置管理中的管理引擎爬虫进入管理页,你也可以通过插件管理中的Robots Manager后的管理进入管理页。 2、ZBLOG的哪些文件是应该拦截的? 不允许搜索引擎...
Robot协议在Web站点的根目录下设置一个robots.txt文件, * 规定站点上的哪些页面是限制搜索的。 * 搜索程序应该在搜索过程中跳过这些区域,下面是robots.txt的一个例子: * # robots.txt for ...
语言:English ...该扩展程序提供以下信息:-标题和描述字数-标题和描述字词-Robots.txt设置-关键字Meta Insights由Organik SEO构建和使用,是快速访问重要SEO信息的绝佳工具。 它无意用作深入的SEO优化工具。
Laravel开发-laravel-robots-route 基于配置设置,为Laravel 5.1 中的基本robots.txt提供服务的路由。
页面布局和内页优化 下5.robots.txt的作用6.robots语法讲解7.站群优化 上8.站群优化 中9.站群优化 下10.中文分词算法11.隐含语义索引原理12.网站优化方案制作14.IIS日志的作用15.蛋糕原理16.网站权重分析1 资源太大...
特征设置为对所需的任何域进行爬网,并停留在该域内或允许其外设置索引以使用自定义选项(例如深度)进行爬网遵守robots.txt 设置书签,以便可以在几天内为网站建立索引(在设置了爬网限制的情况下很有用) 索引对...