`

百度与谷歌蜘蛛抓取 配置

 
阅读更多

浅谈:如何屏蔽百度谷歌蜘蛛?
方法一、创建robots.txt文本
对于robots.txt文本的相关概念或者是协议我就不提了,主要是直接告诉大家这个文件的写法。
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
Disallow: /
禁止了蜘蛛抓取根目录下的所有内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
示例:
禁止百度蜘蛛:
User-agent: baiduspider
Disallow: /
禁止谷歌蜘蛛:
User-agent: Googlebot
Disallow: /
禁止所有蜘蛛:
User-agent: *
Disallow: /
方法二、robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。 http://www.020bdf.com

分享到:
评论

相关推荐

    搜索引擎蜘蛛爬行查询 v1.0

    搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序...

    扎鸟搜索引擎蜘蛛爬行统计系统 V1.11(sqlite版).rar

    搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...

    扎鸟搜索引擎蜘蛛爬行日志查询PHP版|适用于wordpress

    本程序支持的搜索引擎蜘蛛跟踪记录主要有百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。  安装使用说明:  您的域名/zhizhu/install  填写相应的配置信息即可自动完成安...

    扎鸟搜索引擎蜘蛛爬行查询

    搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你可以...

    扎鸟网搜索引擎蜘蛛爬行监测系统 1.0.zip

    搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...

    扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)v1.1.zip

    搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...

    搜索引擎代码

    1.提高系统稳定性:优化蜘蛛抓取网页时索引建立的方式,避免因服务器异常,导致整站索引损坏的问题;优化一些蜘蛛抓取的容错功能。(重要) 2.完善搜索关键词竞价广告系统,使广告匹配更精准;增加竞价价格查询;并...

    无限智能建站的MAIYIGO全自动SEO整站源码

    百度谷歌收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:MAIYIGO自动寻找信息,随时自动更新 ·在线的...

    企业SEO站 v17.1 无组件生成HTML.rar

    2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...

    企业SEO站 v17.2 无组件生成HTML.rar

    2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...

    企业SEO站 v17.0 无组件生成HTML.rar

    2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...

    PHP搜索引擎20110614bate版

    5.蜘蛛自动抓取网页,一切的网页收录匀由蜘蛛自动完成! 6.sp值网站权重排名,此排名类似于google的PR值,只是算法不同! 7.违法关键字过滤功能 8.网站无限级分类 9.违法作弊网站一键删除 10.网站登录入口,可在后台设置...

    无限智能建站的全自动SEO站

    百度谷歌收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:自动寻找信息,随时自动更新 ·在线的WEB系统...

    搜宠网PHP搜索引擎 20110614版.rar

    5.蜘蛛自动抓取网页,一切的网页收录匀由蜘蛛自动完成! 6.sp值网站权重排名,此排名类似于google的PR值,只是算法不同! 7.违法关键字过滤功能 8.网站无限级分类 9.违法作弊网站一键删除 10.网站登录入口,可在后台...

    企业SEO优化站 17.6

    2.若上传至虚拟主机根目录则要修改文件(特别注意修改网站配置中网站地址、域名+“/”如然后,点击生成静态化,因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空;3.网站常规设置(网站名称、网站...

    博达企业网站管理系统-Asp

    并且网站配置了搜索引擎蜘蛛监控系统,后台可以清晰查看蜘蛛抓取详情信息,并且博达企业网站系统支持所有Asp虚拟空间,兼容良好,程序采用Div+Css设计,兼IE8、IE10、IE11、IE12、搜狗浏览器、谷歌浏览器、360浏览器...

Global site tag (gtag.js) - Google Analytics