`
wangwei3
  • 浏览: 118440 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

heritrix 下载不通过服务器缓存

阅读更多
最近爬虫下载论坛时出现了一些奇怪的问题。
1.下载一半就无法下载
2.下载了很多空页面,提示说页面不存在

问题一:原因分析,由于网站对一个IP在一个时间片内访问太频繁,导致封IP。
解决方案:减缓爬虫下载间隔,多个网站一起下载,而且网站越多越好,可以错开下载。

问题二:初步分析,下载的页面是html的,怎么可能有这个问题?因为下载的论坛是开源的discuz,我们都知道discuz有一个缓存机制,管理员可以删除帖子,可是被删除的帖子还存在服务器缓存中,由此可以证明那些html都是伪静态的页面,而且爬虫下载是通过服务器缓存的。通过日志可以发现: 类似于百度,google这类的大网站,他们的爬虫都是不通过服务器缓存的。

爬虫也是 通过 URLConnection 啊那什么HTTPURLConnection 还是 httpclient 都继承这个建立连接 服务器返回给你什么就是什么,做了缓存服务器就返回给你缓存

爬虫通过URL建立Socket,和服务器通信,获取资源即可。所以抓不抓后台,在于服务器给它什么资源.爬虫是不知道什么后台不后台的。都是服务器给它资源,也就是InputStream
分享到:
评论

相关推荐

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    Heritrix部署直接能运行的项目

    Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时 查到,包括IP地址,历史记录,机器人策略。 处理器链: 预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作...

    heritrix下载及配置

    详细的说明heritrix下载及配置,图形加文字说明,一看就会

    heritrix 3.1

    heritrix3.1的默认配置,类之间的关系。

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    web爬虫Heritrix.zip

    Heritrix是一个开源,可扩展的web爬虫项目。...服务器缓存(Server cache)存放服务器的持久信息,能够被爬行部件随时查到,包括被抓取的Web服务器信息,例如DNS查询结果,也就是IP地址。 标签:Heritrix

    Heritrix3手册翻译

    Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指...3.X移到新的模型,在单一作业目录下的单一作业可以原地再次启动(每次启动不在需要生成新的作业目录)。

    heritrix-3.2.0

    我把下载最新的 heritrix-3.2.0 包 发到网上,供大家下载学习。

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    Heritrix+Lucene搜索例子

    lucene Heritrix

    heritrix3.2源码

    heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    这是我在官方网站下载的,里面还有在myeclipse安装方法及常见问题解决

    heritrix-1.10.1

    Heritrix是一个爬虫框架,可加如入一些可互换的组件。

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    heritrix1.14.4源码+项目

    heritrix1.14.4源码+项目

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix 下载方法

    heritrix 是一个很优秀的网络爬虫 本文主要讲述了在heritrix官网上下载的 具体方法,希望有跟多的初学者能够得到帮助

    heritrix-1.14.0-src 网络爬虫

    一个java的网络爬虫程序。heritrix-1.14.0-src

Global site tag (gtag.js) - Google Analytics