前面做了一个Heritrix1.14.1在Eclipse下的配置总结,那种配置方法虽然可以在Eclipse把Heritrix运行起来,但是存在在WUI下建立JOB时,存在“Modules界面不能改变选择项”的问题。
因此又试了一下,如果能够按以下方法配置,即可正常启动,并且不再发生上面提到的问题。简要说明如下:
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix.1.14.1;
3、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下;
4、复制SRC包下src下conf文件夹到项目根目录;
5、复制SRC包下lib文件夹到项目根目录;
6、复制ZIP包下webapps文件夹到项目根目录;
7、修改项目下conf下heritrix.properties文件(修改内容同前)
8、在项目上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行->java应用程序->命名为Heritrix->类路径选项卡->高级->添加文件夹->选择项目下conf文件夹,最后点击运行
运行后控制台信息如下:
10:47:59.929 EVENT Starting Jetty/4.2.23
10:48:00.054 WARN!! Delete existing temp dir C:\DOCUME~1\ycf\LOCALS~1\Temp\Jetty_127_0_0_1_8088__ for WebApplicationContext[/,jar:file:/E:/projects/eclipse_workspace/HERITRIX1.14.1b/webapps/admin.war!/]
10:48:00.398 EVENT Started WebApplicationContext[/,Heritrix Console]
10:48:01.163 EVENT Started SocketListener on 127.0.0.1:8088
10:48:01.163 EVENT Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: 1.14.1
heritrix.properties
##############################################################################
# HERITRIX PROPERTIES
##############################################################################
# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).
# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1
# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs
# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081
##############################################################################
# LOGGING
##############################################################################
在浏览器地址栏输入:http://127.0.0.1:8088/即可登录WUI,输入用户名:admin密码:admin,即可登录设置抓取任务。
分享到:
- 2008-12-01 19:50
- 浏览 1027
- 评论(0)
- 论坛回复 / 浏览 (0 / 4081)
- 查看更多
相关推荐
Eclipse下配置Heritrix,具体配置步骤详细介绍。
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix
很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手
Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
对heritrix抓取的操作和扩展 里面有MirrorWriterProcessor扩展的类文件修改
近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台...注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=admin:admin
2. 在Eclipse下新建普通Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:\eclipse\search下,当我建了项目Heritrix后,我就可以找到D:\eclipse\search\Heritrix文件夹.其中包含两个工程属性文件.classpath和....
heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,...本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。
Heritrix的安装与配置方法:文档中详细介绍了Heritrix的安装与配置,可以按照里面的方法自己安装配置。
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
heritrix-1.4.4 源代码(eclipse可执行) 将源代码解压后导入到eclipse 即可执行
Heritrix1.4.4安装配置使用手册,有研究索引技术的可以下载看看.
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·
在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...
heritrix heritrix heritrix heritrix heritrix heritrix
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录
将hertrix配置到myeclipse中