`
修__
  • 浏览: 15149 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Heritrix 3.1.2搭建

阅读更多
一、从官网下载
heritrix-3.1.2-20130802.033935-177-dist.zip
heritrix-3.1.2-20130802.033935-177-src.zip

二、在eclipse建立一个新的web项目
将heritrix-3.1.2-20130802.033935-177-dist.zip的heritrix-3.1.2-SNAPSHOT\lib的jar复制到WEB-INF的目录下面

将heritrix-3.1.2-20130802.033935-177-src.zip 的heritrix-3.1.2-SNAPSHOT\commons\src\main\java目录(对应heritrix-commons-3.1.0.jar), heritrix-3.1.2-SNAPSHOT\modules\src\main\java目录(对应heritrix-modules-3.1.0.jar)和 heritrix-3.1.2-SNAPSHOT\engine\src\main\java(对应heritrix-engine-3.1.0.jar)。这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。

三、
Heritrix.java的 String authPassword = null; 改为 String authPassword = "admin";
将run configurations 的 program argument设置参数 -a admin:admin
下图的start 是正在运行才有的,别误解!!!!!




ctrl+F9运行这个main()程序,再开启tomcat start!

四、网址输入https://localhost:8443/
若输入http://localhost:8443/
就出现SSL错误
javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?
at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671)
at sun.security.ssl.InputRecord.read(InputRecord.java:504)
at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:927)
at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1312)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1339)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1323)
at org.mortbay.jetty.security.SslSocketConnector$SslConnection.run(SslSocketConnector.java:708)
at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)
2013-08-03 13:28:20.837:WARN::EXCEPTION
javax.net.ssl.SSLHandshakeException: Remote host closed connection during handshake
at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:946)
at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1312)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1339)
at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1323)
at org.mortbay.jetty.security.SslSocketConnector$SslConnection.run(SslSocketConnector.java:708)
at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)
  • 大小: 35.8 KB
分享到:
评论

相关推荐

    Heritrix搭建好的工程

    Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·

    heritrix1.14.0jar包

    爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。

    Heritrix—开发自己的搜索引擎

    开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具

    Heritrix3手册翻译

    Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    eclipse下配置heritrix 1.14.4

    很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手

    Heritrix使用详解与高级开发应用

    Heritrix使用详解与高级开发应用 Heritrix开发应用详细

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    Heritrix lucene开发自己的搜索引擎(源码)1

    注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能...

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

    heritrix的绿色配置包

    heritrix heritrix heritrix heritrix heritrix heritrix

    heritrix源码

    heritrix学习源码和资料

Global site tag (gtag.js) - Google Analytics