笔记之三-robots - - ITeye博客

`

a280606790

浏览: 473508 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

youngcoder： good job
HTTP协议头部与Keep-Alive模式详解
javazdq：受教了解释的不错。
lucene创建索引高级特性和索引创建参数优化
josico：有几个问题想问下楼主1. LinkedBlockingQueu ...
生产者-消费者-BlockingQueue
annybz：有没有关于 BlockingQueue和ConcurrentL ...
生产者-消费者-BlockingQueue
uniquejava：多谢，记录的很真实。
DB2 学习记录

笔记之三-robots

博客分类：

j2ee

百度搜索引擎 HTML Google

阅读更多

一、robots

robots主要作用是屏蔽一些不愿意让蜘蛛爬取的内容

如：联系我们，关于我们，动态，声明、死链接需要robots屏蔽
robots放于跟目录，蜘蛛先爬取robots。

可以通过查看日志来了解百度是否来过，如何查看百度蜘蛛是否来过我的网站。

好处：
1、使网站变得更加纯洁。减少权重的分散！
2、清除站内垃圾

二、语法：

1）User-agent：User-agent:Baiduspider 定义百度
User-agent:googlebot 定义Google
User-agent:* 定义所有的
2）Disallow: 禁止爬去的语法
User-agent:Baiduspider
Disallow:/
User-agent:googlebot
Disallow:/
User-agent:* 禁止爬去所有的文件夹
Disallow:/
User-agent:Baiduspider
Disallow:/admin/ 禁止爬去admin文件夹
User-agent:*
Disallow:/ab/adc.html禁止爬去ab文件夹下面的adc.html所有文件
3）Allow：
当你想搜索引擎只爬取admin这个文件夹下的a.html 和b.html两个文件时我们可以这样写
     User-agent:*     定义所有的文件
     Disallow:/admin/ 禁止爬取admin这个文件夹
     Allow:/admin/a.html允许爬去
     Allow:/admin/b.htmL

分享到：

NameError: name 'admin' is not defined | HTTP协议头部与Keep-Alive模式详解

2011-06-16 16:13
浏览 1104
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Sim-to-Real: Learning Agile Locomotion For Quadruped Robots 笔记: Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots 笔记

谷歌师兄的leetcode刷题笔记-jazz-robots:爵士机器人任务管理: 谷歌师兄的leetcode刷题笔记爵士机器人爵士机器人任务管理共同点是主要的任务管理机制没有状态和解决冲突，一些生活问题的原因）此外，我已经实现了 spring 云堆栈，但我没有将大哥大的单体产品分离到微服务中，...

[Probabilistic robotics] 1-28:第二\三章笔记: 目录内容说明贝叶斯定理英文说明公式内容概率机器人例子移动机器人定位海岸导航递归状态估计基本概念条件独立熵环境交互状态说明生成法则隐马尔科夫置信度贝叶斯...简言之，后验概率等于前验概率乘以似然比推广递推

Python爬虫实战笔记-股票爬取示例.md: 最后提出了爬虫的最佳实践,如避免频繁请求、遵守Robots协议等。在应用扩展部分,文中还以股票数据获取为例,展示了爬取和分析股票信息的代码示例。内容全面介绍了Python爬虫的实战技巧。适合人群: 对Python爬虫技术...

python3网络爬虫笔记与实战源码.zip: 记录python爬虫学习全程笔记、参考资料和常见错误，约40个爬取实例与思路解析，涵盖urllib、requests、bs4、jsonpath、re、 pytesseract、PIL等常用库的使用。爬虫（Web Crawler）是一种自动化程序，用于从互联网...

Python 网络爬虫（Web Crawlers）学习笔记。.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

平时学习爬虫的一些代码笔记以及案例实战.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

小红书关键词笔记搜索Python 爬虫（csv保存）.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

小红书爬虫，小红书笔记、主页、搜索爬取.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

路飞学城爬虫开发+APP逆向超级大神班学习笔记.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

python爬虫仓库，包括一些学习笔记，例如基础、简单的画图词云数据分析。主要还是爬虫.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

python爬虫的学习和代码模板的笔记记录。涉及文本数据、图片数据、音频数据、视频数据的抓取。.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

HTTP协议及网络爬虫: HTTP协议、网络爬虫引发的问题、Robots协议及遵守方式的一些个人笔记。。。

virtual-hrp-robot:使用 HID-Robot-Protocol (hrp) 模拟机器人的包: 其中robotsName是位于文件夹robots/中的 js 文件的名称。虚拟机器人将开始侦听端口 5555 上的连接。您应该能够使用 HID-Robot-Protocol ( ) 进行通信。笔记不支持末端执行器的旋转，这个包暂时只处理位移。要创建...

读书笔记《自己动手写网络爬虫》，自己敲的代码。主要记录了网络爬虫的基本实现，网页去重的算法，网页指纹算法，文本信息挖掘.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

ASP搜索引擎蜘蛛爬行日志生成程序.rar: 7.《SEO每日一贴笔记》完整版.pdf 8.《王通网站运营研究》电子书下载.exe 9.5天提高搜索引擎排名-Netfox编译.exe 10.AdSense 优化宝典.pdf 11.搜索引擎原理完整教程.pdf 12.搜索引擎优化魔法书.pdf 13.增加反向链接...

Hasura-Week1:Hasura第1周任务: Hasura-Week1 要求： NPM> = 3.10.10 节点> = 6.11.4 应遵循的步骤： ... '/robots.txt' 笔记：使用支持JavaScript的浏览器。在git clone和npm install期间不要使用代理或VPN。重要链接：

mrpt_vrep_bridge:将移动机器人编程工具包（MRPT）与V-REP机器人模拟器接口: 笔记该代码专门针对MRPT-2.x代码。没有提供与MRPT 1.5的向后兼容性。演示版去做贡献当前回购中的代码遵循相同的。使用git VCS时，请牢记以下要点：用空行将主体与身体分开将主题行限制为50个字符大写...

prototype-seed:Gulp Prototype Seed with Jade、BrowserSync、HTML Boilerplate、Grid、CSS Autoprefixer、KSS Styleguide 为 Heroku 部署做好准备: 在 robots.txt 中更改此内容在 server.js 文件中启用基本 HTTP-Auth。这仅在从 express 提供站点时启用。就像在heroku上托管一样。将原型部署到 Heroku 确保您已安装。首先，创建您的应用程序： heroku ...

整理asp漏洞与入侵方式.doc: 0x52 与之类似的上传漏洞 5 0x53黑名单验证 5 0x54 shtml/shtm/stm文件爆源码 5 0x55其他方式 5 0x56 MIME 类型检查 6 0x57 一个偷懒用的JS提交代码 6 0x60留言板攻击与非法注册 6 0x61 留言板攻击 6 0x62非法注册 6...

Global site tag (gtag.js) - Google Analytics