`
approximation
  • 浏览: 34119 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

在eclipse中设置heritrix2的运行环境

阅读更多

在eclipse中设置heritrix2的运行环境

 

基本上根据heritrix的文档就可以设置好,不过中间会很有些坎坷。把坎坷记录下来备忘。希望对遇见同样问题的人有所帮助。heritrix的文档参见:http://webteam.archive.org/confluence/display/Heritrix/Setting+up+the+new+Heritrix+in+Eclipse

1、从http://m2eclipse.sonatype.org/update-dev/安装maven的Eclipse插件,选择integration安装就可以了。或者安装单独maven。使用插件的话,要在eclipse.ini中加入jdk的路径,如:
-vm 
C:\jdk1.6.0_07\bin\javaw.exe
切记一定要换行。

2、使用SVN,从https://archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix2 下载最新版的源码,现在应该是2.0.3。因为在使用中出现问题,所以不建议使用 heritrix已经打好包的2.0.2的src,除非你愿意自己去改代码 。 

3、在Eclipse中导入项目。建议使用的VM为JDK,而不是JRE。

4、在Eclipse中,设置M2_REPO variable。按缺省操作的话,这个应该自动设好了,否则指到到你实际的maven repository路径。

5、在Eclipse中,依次右键选择commons,modules,engine,webgui,dist和根路径下的pom.xml,Run As--maven Install。这时要保证网络是通的,会自动下载所需要的依赖包。这些会放在maven的repository路径里。不使用插件,直接用maven命令也可以。此处需要注意的是,直接用maven名令和用插件下载的包不完全一样。另外,会有几个包会下载不到。根据错误提示,如果是jar的话,在网上或自己机器里找一个类似版本的jar放到提示路径里;如果是pom文件,就自己编辑一个好了。

6、找到org.archive.crawler.Heritrix,run as或者debug as java application。在VM arguments设置:-Dheritrix.development,在program arguments中设置:
-jjobs路径的绝对地址。--【不设就按缺省。要设置的话,不要在-j后面有空格。应该是-jC:\jobs,下面类似。】
-aadmin --【登录时的密码】
-wC:\heritrix-2\webui\target\heritrix-webui-2.0.3-SNAPSHOT.war --【你自己生成的war实际路径】

完成以上这些,就可以运行了。建议使用非IE浏览器。否则,在有些后台操作时会抛异常。

1
0
分享到:
评论

相关推荐

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    Heritrix Eclipse下环境配置

    Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix

    eclipse下配置heritrix 1.14.4

    很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手

    Heritrix在Eclipse中的源文件

    Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明

    Heritrix lucene开发自己的搜索引擎(源码)1

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    Heritrix 配置

    在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名Heritrix;(如我打开Eclipse的...

    Heritrix运行和任务设置

    有关Heritrix运行的配置问题,给初学者参考

    Heritrix在windows下运行成功

    抓取网上的内容 信息采集

    heritrix-1.4.4 源代码(eclipse可执行)

    heritrix-1.4.4 源代码(eclipse可执行) 将源代码解压后导入到eclipse 即可执行

    Heritrix部署直接能运行的项目

    在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照...

    Heritrix搭建好的工程

    Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·

    Heritrix3手册翻译

    Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...

    heritrix 配置

    heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,...本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。

    Heritrix-1.14.4源代码

    Heritrix-1.14.4源代码,已经建成了项目。直接导入(import)Eclipse中,即可以直接运行。方便广大渴望学习Heritrix源代码的同学。

    Heritrix在Windows下的运行

    NULL 博文链接:https://wb17534806.iteye.com/blog/548865

    开发自己的搜索引擎lucene and heritrix

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    heritrix 中文API (自己整理) 网络爬虫

    heritrix 中文API (自己整理),网络爬虫,只包含关键的类的介绍

    Heritrix lucene开发自己的搜索引擎(源码)3

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

Global site tag (gtag.js) - Google Analytics