花费了大半天时间在Window系统中搭建Heritrix 3.1的Eclipse开发环境。走了些弯路,但最终都搞定。将其中的经验跟大家分一下。
相关软件准备
(1)安装JDK1.6, 做java开发的都会,不罗嗦了。
(2)安装Maven2,版本2.2.1,具体步骤参考:
待写教程
(3)安装Git,具体步骤参考:
待写教程
(4)安装Eclipse,版本eclipse-jee-indigo-SR2-win32
进入正题
(1)克隆Git源码库
cd C:\Users\jHan\Developer\Heritrix3\source //需修改为自己本地实际的路径
git clone git://github.com/internetarchive/heritrix3.git
或者使用TortoiseGit克隆源码仓库
(2)获取项目相关依赖包
进入Command,
cd C:\Users\jHan\Developer\Heritrix3\source\heritrix3 //heritrix3的源码目录
mvn -Dmaven.test.skip=true install
(3)修改.classpath文件--
需要注意的地方
源码中自带的.classpath有些问题,缺少一些依赖的jar包。具体如下:
增加依赖包libidn-1.15.jar和archive-commons-1.0-SNAPSHOT.jar:
<classpathentry kind="var" path="M2_REPO/org/gnu/inet/libidn/1.15/libidn-1.15.jar"/>
<classpathentry kind="var" path="M2_REPO/org/archive/archive-commons/1.0-SNAPSHOT/archive-commons-1.0-SNAPSHOT.jar"/>
删除依赖的工程archive-commons:
<classpathentry combineaccessrules="false" kind="src" path="/archive-commons"/>
(3)导入项目
打开Eclipse,
选择File / Import... / Existing Projects Into Workspace,选择C:\Users\jHan\Developer\Heritrix3\source\heritrix3
(4)Eclipse中设置M2_REPO变量
选择 Project > Properties > Java Build path >
选择 Libraries 标签 > Add variable > Configure variables > New
Name: M2_REPO
Path: C:/Users/jHan/.m2/repository //路径修改为自己本地maven仓库的实际位置
(5)创建Debug/Run Configuration
打开 Run / Debug Configurations...
双击 Java Applications 创建一个新的
选择 Main class: org.archive.crawler.Heritrix
在Arguments标签中操作:
在Program arguments中输入: -a admin:admin -l dist/src/main/conf/logging.properties
在VM arguments中输入: -Dheritrix.development
分享到:
相关推荐
heritrix3.0/3.1官方手册 原版为英文 在此基础做了部分翻译
heritrix3.1的默认配置,类之间的关系。
Eclipse下配置Heritrix,具体配置步骤详细介绍。
很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
heritrix3.1.0网络爬虫源码包,包含src和dist
自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的FrontierScheduler类:163mobile 安装:直接在Eclipse中选取“import->Existing Project”...
NULL 博文链接:https://zengzhaoshuai.iteye.com/blog/985997
Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·
在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名Heritrix;(如我打开Eclipse的...
开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具
Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明
Heritrix 3.0 and 3.1 User Guide Heritrix 3.x API Guide 3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型,在单一作业目录下的单一作业...
开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料,总共有30M,只上传了几个例子. ch2-lucene入门小例子 myReserch-可用的网络搜索引擎
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的FrontierScheduler类:163mobile 安装:直接在Eclipse中选取“import->Existing Project”...
NULL 博文链接:https://wb17534806.iteye.com/blog/548865
抓取网上的内容 信息采集
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。