`

Eclipse下配置heritrix

阅读更多

一、需求文件
    heritrix-1.41.3-src.zip
    heritrix-1.14.3.zip
    在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载

二、准备
    把下载的两个文件分别解压到不同的目录中

三、在eclipse中新建一个java appliction
    分别把heritrix-1.14.3.zip的解压文件中的conf,webapps,lib文件夹拷到工程中
    如图所示heritrix-1.jpg

                                                 heritrix-1


    把heritrix-1.14.3-src.zip的解压目录下的java目录中的META-INF,org,st目录拷贝到工程目录的src目录下,把heritrix-1.14.3.zip的解压文件中的profiles,mudules,selftest目录拷贝到src目录下
    配置后如图heritrix-2.jpg

                                                     heritrix-2
    在conf/heritrix.properties中配置用户名密码
    如图heritrix-3.jpg

                                        heritrix-3

四、工程基本搭建完成,把工程下的lib中的jar文件配置到工程中(Build Path)

五、运行org.archive.crawler.Heritrix类,工程启动

六、访问http://localhost:8080/

  • 大小: 16.1 KB
  • 大小: 9.6 KB
  • 大小: 25.3 KB
分享到:
评论
1 楼 pandarat 2010-05-04  
我按照上面的步骤试了下。
可是到最后“运行org.archive.crawler.Heritrix类”找不到这个类。
文件夹里有heritrix.class这个文件,可是放到eclipse里就看不到了。
有解决方法没?

相关推荐

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    eclipse下配置heritrix 1.14.4

    很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手

    Heritrix Eclipse下环境配置

    Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix

    Heritrix 配置

    (如我打开Eclipse的工作区在D:\eclipse\search下,当我建了项目Heritrix后,我就可以找到D:\eclipse\search\Heritrix文件夹.其中包含两个工程属性文件.classpath和.project。 3. 复制SRC包下面src/java文件夹下org、...

    Heritrix在Eclipse中的源文件

    Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明

    heritrix 配置

    heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,...本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。

    Heritrix lucene开发自己的搜索引擎(源码)1

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

    开发自己的搜索引擎lucene and heritrix

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

    Heritrix lucene开发自己的搜索引擎(源码)3

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。...在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:localhost:8080进入UI任务创建、参数配置界面进行各项操作。

    heritrix.rar

    一个配置好heritrix工程,加到Eclipse底下可以直接运行

    网络爬虫调研报告.doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(1).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(2).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中. Larbin 开发语言:...

Global site tag (gtag.js) - Google Analytics