浅谈:如何屏蔽百度谷歌蜘蛛?
方法一、创建robots.txt文本
对于robots.txt文本的相关概念或者是协议我就不提了,主要是直接告诉大家这个文件的写法。
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
Disallow: /
禁止了蜘蛛抓取根目录下的所有内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
示例:
禁止百度蜘蛛:
User-agent: baiduspider
Disallow: /
禁止谷歌蜘蛛:
User-agent: Googlebot
Disallow: /
禁止所有蜘蛛:
User-agent: *
Disallow: /
方法二、robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。 http://www.020bdf.com
分享到:
相关推荐
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...
本程序支持的搜索引擎蜘蛛跟踪记录主要有百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 安装使用说明: 您的域名/zhizhu/install 填写相应的配置信息即可自动完成安...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你可以...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...
1.提高系统稳定性:优化蜘蛛抓取网页时索引建立的方式,避免因服务器异常,导致整站索引损坏的问题;优化一些蜘蛛抓取的容错功能。(重要) 2.完善搜索关键词竞价广告系统,使广告匹配更精准;增加竞价价格查询;并...
百度谷歌收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:MAIYIGO自动寻找信息,随时自动更新 ·在线的...
2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...
2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...
2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、...
5.蜘蛛自动抓取网页,一切的网页收录匀由蜘蛛自动完成! 6.sp值网站权重排名,此排名类似于google的PR值,只是算法不同! 7.违法关键字过滤功能 8.网站无限级分类 9.违法作弊网站一键删除 10.网站登录入口,可在后台设置...
百度谷歌收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:自动寻找信息,随时自动更新 ·在线的WEB系统...
5.蜘蛛自动抓取网页,一切的网页收录匀由蜘蛛自动完成! 6.sp值网站权重排名,此排名类似于google的PR值,只是算法不同! 7.违法关键字过滤功能 8.网站无限级分类 9.违法作弊网站一键删除 10.网站登录入口,可在后台...
2.若上传至虚拟主机根目录则要修改文件(特别注意修改网站配置中网站地址、域名+“/”如然后,点击生成静态化,因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空;3.网站常规设置(网站名称、网站...
并且网站配置了搜索引擎蜘蛛监控系统,后台可以清晰查看蜘蛛抓取详情信息,并且博达企业网站系统支持所有Asp虚拟空间,兼容良好,程序采用Div+Css设计,兼IE8、IE10、IE11、IE12、搜狗浏览器、谷歌浏览器、360浏览器...