`
阅读更多
我们以前是通过次数和逻辑算法来控制的,这样才能治标治本,楼上都太简单,如果真想采集你的网站信息的话,其实很简单.
我在网上找了一个很全面的防采集的方法,你参考一下

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。
相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

不同点:搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

然后再来提出一些防采集方法
1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率

2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

5、用户登录才能访问网站内容
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)
分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站:不太考虑搜索引擎收录的网站
采集器会怎么做:伪装HTTP_REFERER嘛,不难。

8、全flash、图片或者pdf来呈现网站内容
分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
适用网站:媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做:不采了,走人

9、网站随机采用不同模版
分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
适用网站:动态网站,并且不考虑用户体验。
采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

10、采用动态不规则的html标签
分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以<   div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机,那么
采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
适合网站:所有动态且不想遵守网页设计规范的网站。
采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。


总结:
一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。
分享到:
评论

相关推荐

    GPRS数据采集器、无线数据采集模块

    GPRS数据采集(无线数据采集模块)为采集传输一体式测控终端,具备仪表数据、设备状态的采集传输、远程控制、刷卡管理、用水控制等多项功能,是组成成套系统的现场核心设备,可与各种变送器组合成为多种不同类型的...

    Labview数据采集基础.pdf

    Labview 数据采集基础 本章节主要介绍了数据采集的基础知识,包括采样频率、抗混叠滤波器、样本数等概念的解释和应用。 数据采集是计算机与外部物理世界连接的桥梁,它的重要性是十分显著的。在实际采集时,噪声也...

    2.3直通车推广数据采集与处理方案撰写.docx

    2.3直通车推广数据采集与处理方案撰写.docx2.3直通车推广数据采集与处理方案撰写.docx2.3直通车推广数据采集与处理方案撰写.docx2.3直通车推广数据采集与处理方案撰写.docx2.3直通车推广数据采集与处理方案撰写.docx...

    Python3网络爬虫数据采集.pdf

    Python3网络爬虫数据采集.pdf 本资源为 Python 3 网络爬虫数据采集的详细指南,涵盖了网络数据采集的基本原理、网络爬虫测试、自动化处理和更多的方式接入网络。该资源适合需要采集 Web 数据的相关软件开发人员和...

    数据采集与处理技术.pdf

    本文将对数据采集与处理技术的基本概念、数据采集系统的组成、数据采集系统的基本结构形式、数据采集系统的软件功能模块、数据处理的类型、数据处理的主要任务等进行详细介绍。 1. 数据采集系统的任务 数据采集...

    Licel雷达数据采集与显示软件.zip

    Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 Licel雷达数据采集与显示软件 ...

    基于OPC和.net的数据采集系统软件Demo

    1. 基于.net开发, 适用于Windows系统, 是物联网、智能制造、信息化系统相关的数据采集软件; 397949992@qq.com 2. Demo版本基于开放的OPC进行数据采集, 具有实时监控、存储记录、数据传输、报表打印等功能; 3. 软件...

    Python程序设计:数据采集技术.pptx

    数据采集和爬虫基础 房屋信息抓取;知识点:常用的数据采集技术 ;数据采集技术;数据采集技术;要用大数据对关系数据库上的数据进行分析处理,很多时候都必须要将数据从关系数据库导入到大数据平台上。;应用程序日志一...

    数据采集流程图

    数据采集文档说明 1. 生产数据目录为: /home/wangyi/DepositoryProject/API,其中对应的数据分别为,产品采集,用户采集,充提 采集,奖励采集,投资采集,数据按照天依次递增,同时保留历史数据。 /home/wangyi/...

    基于RFID的数据采集网络的设计与实现

    基于RS485标准利用超高频RFID读写器构建数据采集网络,遵循IS018000-6B协议的电子标签中的数据,很好解决了多点高密度数据采集的难题。网络节点数目可以根据具体应用场合灵活设置,最多可以拓展至256个数据采集节点...

    基于声卡的LabVIEW数据采集与分析系统设计

    "基于声卡的LabVIEW数据采集与分析系统设计" 本文提出了一种基于声卡的数据采集与分析系统设计,利用声卡DSP技术和LabVIEW多线程技术,提出了一种廉价、简单、界面友好的数据采集与分析方案。本系统具有实现简单、...

    基于QT - SOCKET 的 C++ 实现矩阵压力数据采集及压力云图现实。.zip

    基于QT - SOCKET 的 C++ 实现矩阵压力数据采集及压力云图现实。 基于QT - SOCKET 的 C++ 实现矩阵压力数据采集及压力云图现实。 基于QT - SOCKET 的 C++ 实现矩阵压力数据采集及压力云图现实。 基于QT - SOCKET 的 ...

    基于微信小程序的数据采集管理系统、方法及应用.docx

    基于微信小程序的数据采集管理系统、方法及应用.docx基于微信小程序的数据采集管理系统、方法及应用.docx基于微信小程序的数据采集管理系统、方法及应用.docx基于微信小程序的数据采集管理系统、方法及应用.docx基于...

    高速数据采集存储系统

    如何选择高速数据采集存储系统,怎样搭建高速数据采集存储系统,西安慕雷电子凭借专业技术团队及10多年高速数据采集存储系统研发经验,为您提供全球顶级超宽带数据采集存储系统。 2013年10月,西安慕雷电子发布全球...

    8通道精密模拟量数据采集器

    8通道精密模拟量数据采集器主要技术指标: (1)模拟量通道数:8; (2)AD转换分辨率:14位(数据实质是12位,加符号位和过量程指示位,总共14位); (3)模拟量输入范围:0-4.8V; (3)数据通信与显示方式:采集...

    C# 数据采集系统 智能采集 数据分析 整套源码

    C# 数据采集系统 智能采集 数据分析 整套源码

    基于单片机的多路数据采集系统设计

    本文介绍了基于单片机的数据采集的硬件设计和软件设计,数据采集系统是模拟域与数字域之间必不可少的纽带,它的存在具有着非常重要的作用。本文介绍的重点是数据采集系统,而该系统硬件部分的重心在于单片机。数据...

    基于LabVIEW的并行数据采集系统设计

    为了解决云粒子测量系统中并行数据采集通道之间的信息交互问题,采用LabVIEW中库函数节点、消息队列和状态机相结合的方法,实现了多路不同速率数据的并行采集,试验验证了该并行数据采集方法的可行性.研究结果表明:基于...

    MATLAB数据采集工具箱.doc

    MATLAB 数据采集工具箱 MATLAB 数据采集工具箱是 MATLAB 环境下的一个插件,旨在提供数据采集和分析的功能。本文将详细介绍 MATLAB 数据采集工具箱的内部结构、外部使用接口和使用方法。 MATLAB 数据采集工具箱的...

Global site tag (gtag.js) - Google Analytics