转
下面的这些方法是可以标本兼治的:
1、
详细出处参考:http://www.jb51.net/yunying/28470.html、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率
2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。
3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了
4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。
5、用户登录才能访问网站内容 *
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块
6、利用脚本语言做分页(隐藏分页)
分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。
7、防盗链措施 (只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站:不太考虑搜索引擎收录的网站
采集器会怎么做:伪装HTTP_REFERER嘛,不难。
8、全flash、图片或者pdf来呈现网站内容
分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
适用网站:媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做:不采了,走人
9、网站随机采用不同模版
分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
适用网站:动态网站,并且不考虑用户体验。
采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。
10、采用动态不规则的html标签
分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机,那么
采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
适合网站:所有动态且不想遵守网页设计规范的网站。
采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。
详细出处参考:http://www.jb51.net/yunying/28470.html
分享到:
相关推荐
01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什么选择Python做爬虫 网站通过robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面...
爬虫之反爬防御selenium.zip selenium这个爬虫利器,想必大家都用过.那作为网站一方如何反爬防御它呢?
内容适合爬虫新人! 尝试爬的时候,时长遇到网站反爬,随即返回无效内容或跳转劝退...#url填好防爬虫地址 url = '' bb.get(url) time.sleep(15) bb.encoding = 'UTF-8' content = bb.page_source print(content)
防爬虫:KS-WAF(网站统一防护系统)将爬虫行为分为搜索引擎爬虫及扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。使用防爬虫机制的基本上是企业,我们平时...
本项目主要用于学习爬虫知识搭建的项目,目标是做一个分布式多网站小说智能爬虫,动态提交爬取任务,单线管理,多ip终端防反扒(使用Eureka server 管理自服务的心跳连接)
基于爬虫和网页防篡改的高校门户网站群预警监控系统构建.pdf
host_manager ...安装 Ksplice 一键分区:一键对云主机的...其他功能包括,网站防爬虫,网站代码漏洞修复,网站服务器漏洞修复,网站防盗链,网站迁移,网站防篡改,网站状态监控,服务器磁盘监控,服务器异常流量监控等。
通过 20 多个精心挑选的案例,学员将有机会深入探索并实践如何利用流行的爬虫框架,如 Scrapy 和 Selenium,以及如何运用各种验证码识别技术来克服网站的安全防护措施。 随着课程的深入,学员将学习到 JavaScript ...
在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了。 本文就如何解决这个问题总结出一些应对措施,...
汽车之家这个网站没有做任何的防爬虫的限制,所以最适合我们来练手 1、导入我们要用到的模块 import requests from bs4 import BeautifulSoup 2、利用requests模块伪造浏览器请求 # 通过代码伪造浏览器请求 res = ...
本文将描述一种尽量简单的反爬虫方案,可以在十几分钟内解决部分简单的爬虫问题,缓解恶意攻击或者是系统超负荷运行的状况;至于复杂的爬虫以及更精准的防御,需要另外讨论。爬虫和反爬虫日益成为每家公司的标配系统...
功能涵盖了网马/木马扫描、防SQL注入、防盗链、防CC攻击、网站流量实时监控、网站CPU监控、危险组件防护、.NET安全设置、下载线程保护、IP黑白名单管理、网页防篡改功能(结合安全狗云安全中心使用)等模块。...
相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好...
本系列课程将带你开发自动化程序实现数据自动采集,针对众多网站防止数据被获取采取防爬虫方案,课程中包含对防爬策略所有解决方法,专治各种爬虫疑难杂症,使你在爬虫方向真正做到“遇鬼杀鬼,遇神杀神,所向披靡”...
爬虫爬取网站出现403,因为站点做了防爬虫的设置 一、Herders 属性 爬取CSDN博客 import urllib.request url = "http://blog.csdn.net/hurmishine/article/details/71708030"file = urllib.request.urlopen(url) ...
为了使用python批量爬取某些有防爬虫网站的PDF附件,通过创建header池,以及IP代理池,通过随机抽选的方式随机组合header以及代理IP来进行爬虫访问,模拟不同地址不同浏览器访问操作,规避一些设置防爬虫网站的禁止...
对于使用模拟登陆等操作来爬虫的手段,已经很容易被检测了,网上很多教程是说在网站所有js代码执行之前来执行js代码来到达效果,确实修改成功了。这种写法就万无一失了吗?并不是这样的,如果此时点击链接、输入网址...
社交网站中的很多信息需要登录才能获取到,以微博为例,不登录账号,只能看到大V的前十条微博。保持登录状态,必须要用到Cookie。以登录www.weibo.cn 为例: 在chrome中输入:http://login.weibo.cn/login/ 分析...
详情如下: SingleUrlProtectService任意网址防封api DomainUrlProtectService域名防封api DomainUrlMonitorService域名监控api ShortUrlService短网址api ShieldService屏蔽云端爬虫检测代码示例1.任意网址防封API...
许多网站使用验证码来防御与其网站交互的机器人程序。比如许多银行网站强制每次登录时都需要输入验证码,这就令人十分痛苦。本章将介绍如何自动化处理验证码问题,首先使用光学字符识别,然后使用一个验证码处理API...