`
ssx5210
  • 浏览: 3122 次
文章分类
社区版块
存档分类
最新评论
文章列表
本文主要通过查找网上资料,简单总结一下禁止搜索引擎爬虫抓取网站的方法。 一般情况,大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站,但有时也需要告诉爬虫不要抓取,比如,不要抓取镜像页面等。 搜索引擎抓取自己的网站有它的好处,也存在许多常见问题: 1.网络堵塞丢包严重(上下行数据异常,排除DDOS攻击,服务器中毒。异常下载,数据更新) 2.服务器负载过高,CPU几乎跑满(针对相应的服务配置而定); 3.服务基本瘫痪,路由瘫痪; 4.查看日志发现大量的异常访问日志 一、先查看日志 以下以ngnix的日志为例 cat logs/www.ready.log |grep spider -c (看有爬虫 ...
Global site tag (gtag.js) - Google Analytics