`

【转】Robots.txt和Robots META

阅读更多
Robots Text File Robots.txt
robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个协定的搜索引擎)。robots.txt文件必须存放在网站的根目录下。
robots.txt中包括两部分主要内容:
User-agent:*
Disallow:
User-agent代表搜索引擎,可以指定特定的搜索引擎,星号表示所有;
Disallow,如果用不带/路径表示搜索引擎可以索引整个文件夹,如果带了/则表示对文件夹下的所有内容都不进行索引;
例如:/private/表示对于private文件夹下的所有内容不进行索引,/pulic表示索引所有public下的内容;
两种robots.txt的典型用法:
一、对所有搜索引擎完全开放:
User-agent:*
Disallow:
二、对所有搜索引擎关闭:
User-agent:*
Disallow:/
Robots Meta Tag
对于不能上传Robots.txt文件的用户,我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。
<meta name="robots" content="robots-term" />
robots-term是一系列逗号分隔的字符,主要有以下几个值:noindex,nofollow,index,follow,all
下面来简单解释一下各自的含义:
noindex:搜索引擎不会为页面建立索引,但是允许页面上的链接被追踪;
nofollow:搜索引擎不会追踪页面中的链接,但是允许搜索引擎收录该页面;
index:搜索引擎将把该页面加入到搜索服务中;
follow:搜索引擎会从该页面去查找其他的页面;
all:搜索引擎会执行上面两种操作;
如果Meta标签缺失,或者robots-term没有指定明确的值,那么默认是index,follow,如果在meta中指定了all,那么其他的所有值都将被覆盖,不管all出现在什么位置

最后,再贴一个比较规范的robots.txt来,以供学习:
# robots.txt for http://www.SEOConsultants.com/

# Last modified: 2008-10-19T02:30:00-0700
User-agent: googlebot
Disallow: /js/
Disallow: /webservices/
User-agent: slurp
Disallow: /js/
Disallow: /webservices/
User-agent: msnbot
Disallow: /js/
Disallow: /webservices/
User-agent: teoma
Disallow: /js/
Disallow: /webservices/
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: /
分享到:
评论

相关推荐

    robots.txt详细介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...

    Laravel开发-laravel-robots-txt

    Laravel开发-laravel-robots-txt Laravel 5.x帮助半自动robots.txt和meta标签

    Robots Exclusion Checker-crx插件

    UGC,Sponsored和Nofollow属性值* NEW *-Robots.txt如果是URL您访问的网站受到robots.txt中“允许”或“禁止”的影响,该扩展程序将为您显示扩展程序中的特定规则,从而使复制或访问实时robots.txt变得容易。...

    Robots Meta插件

    Robots Meta这款插件可以添加适当的Meta到页面,禁用未使用的页面以及设置不允许网页索引,总之,Robots Meta插件就是做一些搜索引擎优化相关的设置。 Robots Meta 插件安装: 1.下载Robots Meta插件,将压缩包...

    From AI to Robotics: Mobile, Social, and Sentient Robots

    From AI to Robotics: Mobile, Social, and Sentient Robots By 作者: Arkapravo Bhaumik ISBN-10 书号: 1482251477 ISBN-13 书号: 9781482251470 Edition 版本: 1 出版日期: 2018-03-01 pages 页数: 430 From AI ...

    Digging into WordPress.pdf

    9.3.1 Monitoring and Fixing Errors ...............................350 9.3.2 Alex King’s 404 Notifier Plugin .....................................................351 9.3.3 Broken Link Checker Plugin ....

    如何禁止网站内容被搜索引擎收录的几种方法讲解

    通常做网站的目标就是让搜索引擎收录,扩大推广面,但是如果你的网站涉及个人...搜索引擎默认的遵守robots.txt协议(不排除某些耍流氓的引擎),创建robots.txt文本文件放至网站根目录下,编辑代码如下: User-agent: *

    H-ui.admin v3.1后台模版

    ├── robots.txt 搜索引擎爬虫配置文件 ├── login.html 管理员登陆 ├── index.html 首页(主框架) ├── welcome.html 我的桌面(默认永远打开的页面) ├── member-开头的 用户相关 ├── ...

    SEO Checker Plus-crx插件

    扫描搜索引擎+ robots.txt文件中使用的标签。 显示重定向路径和IP地址 一个免费的扩展程序,允许用户查看搜索引擎收集的数据,并在页面被阻止时接收警报。 该产品易于使用,不需要SEO方面的知识。 扫描Robots.txt...

    qSEO - Meta SEO Site Tool-crx插件

    一键单击Schnellzugriff,即:-元机器人-元规范-链接rel下一个-链接rel上一个-robots.txt(链接和内联内容)Das qSEO插件beinhaltetzusätzlicheinen Schwung链接到在线工具。URL链接URL链接查询工具。Ein Klick和...

    SEO魔法书-最全的优化教程

    关于这本书..............................................................................................................................................1 第一章 搜索引擎基础.............................

    搜索引擎优化魔法书

    目录 关于这本书.............................................................................................................................................1 第一章 搜索引擎基础..........................

    heritrix3-master.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的...Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。

    Heritrix 3.x 用户手册

    Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 简介 它的执行是递归进行的,主要有以下 Heritrix 有Web 控制管理界面 Heritrix 有Web 控制管理界面 几步: 1。在预定的URI中选择一个。 2。...

    qSEO - Meta SEO网站工具「qSEO - Meta SEO Site Tool」-crx插件

    功能的搜索引擎优化工具,快速访问索引相关元标记和robots.txt的内容 从想法到完成的插件没有2个小时过去了。代码是什么,但别致,做它应该,不闪烁,不闪烁,节省时间。对我来说很好,分享是更好的,我已经把5美元...

    SEO Meta Insights-crx插件

    该扩展程序提供有关以下信息:-标题和描述字数-标题和描述字词-Robots.txt设置-关键字Meta Insights由Organik SEO构建和使用,是快速访问重要SEO信息的绝佳工具。它无意用作深入的SEO优化工具。 支持语言:English

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的...Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。

Global site tag (gtag.js) - Google Analytics