一、从官网下载
heritrix-3.1.2-20130802.033935-177-dist.zip
heritrix-3.1.2-20130802.033935-177-src.zip
二、在eclipse建立一个新的web项目
将heritrix-3.1.2-20130802.033935-177-dist.zip的heritrix-3.1.2-SNAPSHOT\lib的jar复制到WEB-INF的目录下面
将heritrix-3.1.2-20130802.033935-177-src.zip 的heritrix-3.1.2-SNAPSHOT\commons\src\main\java目录(对应heritrix-commons-3.1.0.jar), heritrix-3.1.2-SNAPSHOT\modules\src\main\java目录(对应heritrix-modules-3.1.0.jar)和 heritrix-3.1.2-SNAPSHOT\engine\src\main\java(对应heritrix-engine-3.1.0.jar)。这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。
三、
Heritrix.java的 String authPassword = null; 改为 String authPassword = "admin";
将run configurations 的 program argument设置参数 -a admin:admin
下图的start 是正在运行才有的,别误解!!!!!
ctrl+F9运行这个main()程序,再开启tomcat start!
四、网址输入
https://localhost:8443/
若输入http://localhost:8443/
就出现SSL错误
javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?
at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671)
at sun.security.ssl.InputRecord.read(InputRecord.java:504)
at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:927)
at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1312)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1339)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1323)
at org.mortbay.jetty.security.SslSocketConnector$SslConnection.run(SslSocketConnector.java:708)
at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)
2013-08-03 13:28:20.837:WARN::EXCEPTION
javax.net.ssl.SSLHandshakeException: Remote host closed connection during handshake
at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:946)
at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1312)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1339)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1323)
at org.mortbay.jetty.security.SslSocketConnector$SslConnection.run(SslSocketConnector.java:708)
at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)
- 大小: 35.8 KB
分享到:
相关推荐
Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·
爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。
开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能...
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用
heritrix-1.14.2.zip是一个开源项目
heritrix heritrix heritrix heritrix heritrix heritrix
heritrix学习源码和资料