`

抓取防爬虫的网站信息

阅读更多
    有的网站限制网络爬虫的抓取,例如javaeye。会出现错误提示:

您可能使用了网络爬虫抓取JavaEye网站页面!
        <p>JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为!</p>
        <p>如果您的网络爬虫不属于恶意抓取行为,希望JavaEye网站允许你进行网页抓取,请和JavaEye管理员联系,取得授权: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>
        <p>如果您确实使用浏览器访问,但是被错误的识别为网络爬虫,请将您浏览器发送的“User Agent”信息告知我们,帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>

    呵呵,不过可以设置下链接的参数。
   
    URL url=new URL(pathString);
    URLConnection con=url.openConnection();
    con.setDoOutput(true);
    con.setRequestProperty("User-Agent", "");
  
    加上上面红色的一句,就可以了。
    或者使用httpclient是,添加
    HttpClient httpClient=new HttpClient();
   httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(50000);
    httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5");
     这样就可以了。
分享到:
评论

相关推荐

    springboot爬虫

    springboot爬虫,抓取视频链接,查询抓取结果,抓取图片

    大数据爬虫技术第2章 爬虫的实现原理和技术.ppt

    01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什么选择Python做爬虫 网站通过robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面...

    微信公众号爬虫 (支持全自动化批量爬取微信公众号所有文章 Go语言实现)

    注意 开源代码仅限技术分享交流,请充分尊重公众号作者的知识产权以及劳动成果,同时作为有... 微信的防作弊一直在不断更新完善,过于频繁的抓取可能导致微信账号被封禁,在需要大量抓取的任务请使用小号或者测试号进行

    初学Python之爬虫的教程 以及案例

    防爬虫:KS-WAF(网站统一防护系统)将爬虫行为分为搜索引擎爬虫及扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。使用防爬虫机制的基本上是企业,我们平时...

    利用php抓取蜘蛛爬虫痕迹的示例代码

    相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好...

    网络爬虫技术的研究

    爬虫技术 可视化爬虫抓取流程,可爬取任意网页数据,API导出,秒级同步.爬虫技术 一键自动云抓取,支持IP切换,验证码识别,不怕防采集,80万+用户的选择

    Python分布式爬虫与逆向进阶实战

    通过 20 多个精心挑选的案例,学员将有机会深入探索并实践如何利用流行的爬虫框架,如 Scrapy 和 Selenium,以及如何运用各种验证码识别技术来克服网站的安全防护措施。 随着课程的深入,学员将学习到 JavaScript ...

    nginx 防盗链防爬虫配置详解

    禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } 禁止指定UA及UA为空的访问 #forbidden Scrapy if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; ...

    抓取预警信息(全国数据10分钟更新一次).zip

    在线抓取全国气象预警数据,数据每5分钟更新一次,包含站点,站名,预警等级,详细描述预警持续时长,预警建议防护

    nginx修改配置限制恶意爬虫频率

    如何在nginx中限制恶意网络爬虫抓取内容呢?也就是限制下恶意爬虫的抓取频率。下面来一起看看。 今天在微博发现@金荣叶 的处理方法很灵活,可以动态设定一个爬虫的频率,达到减轻服务器负载,并且不至于封杀爬虫。 ...

    Python爬虫_01_概述以及Http协议详解

    本系列课程将带你开发自动化程序实现数据自动采集,针对众多网站防止数据被获取采取防爬虫方案,课程中包含对防爬策略所有解决方法,专治各种爬虫疑难杂症,使你在爬虫方向真正做到“遇鬼杀鬼,遇神杀神,所向披靡”...

    基于Scrapy框架的威胁情报抓取以及处理系统的设计与实现.docx

    本系统通过Scrapy爬虫技术对开源威胁网站和博客等海量安全数据进行爬取和解析,并将其存储为知识图谱所需的底层数据,实现了APT知识图谱的数据需求。 知识点1:Scrapy爬虫技术 Scrapy是一个基于Python的爬虫框架,...

    C#编写的网络爬虫

    统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。 优先级设置:用户可以设置优先级MIME类型(高,上面的,正常的,下面,低)。 防陷阱:10 + URL规范化规则,履带式的陷阱避免规则。

    crawler-book:《爬虫实战:从数据到产品》一书源代码

    特别声明:本书仅限于讨论爬虫技术,书中展示的案例只是为了让读者更好地理解抓取的思路和操作,达到预防信息干预,保护信息安全的目的,不要使用非法用途!本书所提到的技术进行非法抓取,否则后果自负,本人和出版...

    advanced-web-scraping-tutorial, 在高级网页抓取教程中,开发Zipru scraper.zip

    advanced-web-scraping-tutorial, 在高级网页抓取教程中,开发Zipru scraper 高级网页抓取教程项目这里知识... 这是一个爬虫的网站抓取器,用于虚构的种子站点。 它被设计成绕过四种不同的防刮机制:User Agent 筛选。

    Java处理Excel,Word,网页数据抓取

    主要用于使用Java 处理Excel数据,其中包含了网页抓取数据,以及Java操作Word数据

    laravel-block-bots:使用Redis通过IP阻止您站点上的爬网程序和高流量用户

    Laravel Block bot可以阻止不良的抓取工具,试图抓取您的网站或高使用率用户的人,但可以让GoogleBot和Bing这样的重要抓取工具通过。 特征 ULTRA快速,每个请求增加不到1ms。 使用反向DNS验证抓取工具 高度可配置 ...

    icrawler:轻松从网站抓取数据的工具

    爬虫轻松从网站抓取数据的工具特征干净简单的API 持久防错爬网保存状态以进行连续爬网用Cheerio解析类似jQuery的服务器端DOM 平行要求代理列表和用户代理列表支持HTTP标头和cookie设置自动字符集检测和转换控制台...

    Safe3 Web漏洞扫描系统 v10.1.zip

    网页抓取模块采用广度优先爬虫技术以及网站目录还原技术。广度优先的爬虫技术的不会产生爬虫陷入的问 题,可自定义爬行深度和爬行线程,网站目录还原技术则去除了无关结果,提高抓取效率。并且去掉了参数 重复的...

Global site tag (gtag.js) - Google Analytics