`

Heritrix使用摘要

阅读更多
1. 在Eclipse下新建立一个Java Project(名字随便起),把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下;
2. 在Eclipse工程目录下,找到org.archive.crawler包下的Heritrix.java文件,选择该文件,点右键->Run As->Java Application,运行程序,当Eclipse Console里出现“Heritrix version: 1.10.0”信息时,表示heritrix已经正常启动;
3. 打开浏览器(Firefox或IE),输入http://127.0.0.1:8888,会显示一个登陆框,输入用户名:admin和密码:akalius;
4. 进入主页面后,选择“Jobs”->“With defaults”后,Name of new job和Description随便写,Seeds下输入要作为起点的web url(可以填写多个url,每行一个url,无需任何分隔符),Seeds的选择很关键,好的Seeds可以使spider过滤掉无关的页面;
5. 填好Seeds后,选择“Settings”,修改user-agent为Mozilla/5.0 (compatible; heritrix/1.10.0 +http://192.168.208.130)(192.168.208.130为自己机子的IP地址),修改from为test@163.com(Email随便写,格式对就行);
6. 选择“Modules”,Select Crawl Scope选择“BroadScope”,Select URI Frontier选择BdbFrontier,Select Pre Processors选择“Preselector”和“PreconditionEnforcer”,Select Fetchers选择“FetchDNS”和“FetchHTTP”,Select Extractors选择“ExtractorHTTP”、“ExtractorHTML”,Select Writers选择“MirrorWriterProcessor”,Post Processors选择“CrawlStateUpdater”、“LinksScoper”和“FrontierScheduler”(最好自己写一个FrontierScheduler来替换heritrix自己的FrontierScheduler,因为heritrix的FrontierScheduler没有对网页进行相应的过滤,这样就会爬下所有的页面,自己写个FrontierScheduler可以采取一定的过滤机制来获得相对少且与主题相关的页面);
7. 设置完“Modules”后选择“Submit job”,进入主页面,选择“Console”,点击“Start”开始爬网页;
8. 正常开始爬后,会显示一个进度条和相关的性能数据,并且在heritrix的Eclipse工程目录下的jobs目录下会自动生成一个文件夹,文件夹名为“创建的job名-创建的时间”,该文件夹的mirror目录就是heritrix爬到内容所在的目录。
0
0
分享到:
评论
3 楼 javaliver 2010-10-02  
2010.10.02  只恨相见太晚
2 楼 gml520 2008-11-12  
很不错的 GetStarted 。谢谢!
1 楼 richiewlq 2008-08-01  
刚接手heritrix,试了一试,抓取文件很顺利,可是却发现了一个问题。
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?

相关推荐

    heritrix系统使用.ppt

    本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix的安装和配置涉及到几个主要步骤。用户需要下载Heritrix源码,然后按照提供的指南进行编译和安装。配置主要包括设定爬取范围,...

    heritrix系统使用

    本文将详细介绍Heritrix的系统使用,包括配置、安装、限制抓取范围以及优化爬取效率的方法。 首先,配置和安装Heritrix是使用的基础。你需要下载Heritrix的源码或者预编译的版本,并根据官方文档的指引进行安装。...

    heritrix3.1 官方指导手册

    Heritrix 支持多种形式的身份验证,包括基本认证和摘要认证,确保数据的安全抓取。 #### 二十一、创建任务及相应配置文件 用户可以通过 Web 界面轻松创建新的任务和配置文件,简化抓取流程。 #### 二十二、抓取...

    Lucene+Heritrix(搜索引擎开发)

    在探究如何使用Lucene和Heritrix构建搜索引擎之前,我们需要了解这两个工具分别扮演的角色及其在搜索引擎开发中的作用。 Lucene是一个高性能、可伸缩、可扩展的全文检索库,它是用Java编写的开源项目。Lucene的目的...

    Heritrix 3.x 用户手册

    Heritrix的使用步骤主要包括: 1. **安装与配置**:根据系统需求进行安装,并根据Heritrix 3.0和3.1的用户指南进行配置。 2. **启动与运行**:启动Heritrix服务,然后通过Web界面创建和管理爬虫作业。 3. **作业...

    Heritrix用户手册

    1. **系统要求**:在开始使用Heritrix之前,你需要确保你的系统满足必要的硬件和软件需求,包括操作系统、内存、磁盘空间以及Java环境等。 2. **新功能**:这部分介绍Heritrix 3.0和3.1版本相比之前版本新增的功能...

    搜索引擎Lucene+Heritrix(第二版)

    3. 有序爬取:Heritrix使用优先队列管理待爬取的URL,保证了爬取的顺序性和一致性。 4. 异常处理:内置了处理HTTP错误、重定向、robots.txt遵守等功能,确保爬取过程的稳定性。 三、Lucene与Heritrix结合 将...

    基于Lucene和Heritrix技术搜索引擎的设计与实现.pdf

    此外,系统还考虑了用户体验,如提供搜索结果的相关摘要,便于用户快速定位所需信息。 #### 结语 基于Lucene和Heritrix技术的搜索引擎设计与实现,不仅能够满足基本的信息检索需求,还能通过灵活的定制化开发,...

    Heritrix+lucene开发自己的搜索引擎

    #### 摘要 随着互联网技术的迅猛发展,搜索引擎已成为人们获取信息的主要工具之一。对于学术资源的整合与检索,建立一个高效的搜索引擎显得尤为重要。本篇论文旨在探讨如何运用Lucene全文搜索引擎技术,并结合...

    基于Heritrix体系结构的垂直搜索引擎研究

    #### 摘要与背景 随着互联网信息的爆炸性增长,传统的通用搜索引擎虽然能够提供大量的信息资源,但在精确度、深度等方面存在一定的局限性。垂直搜索引擎应运而生,它专注于特定领域的信息搜索,能够更有效地解决...

    heritrix相关文档(定时任务,增量,多线程)[收集].pdf

    1. **HttpContentDigest**:在Extractor Processing Chain开头,用于生成网页内容的摘要,以便比较新旧版本的差异。 2. **ChangeEvaluator**:接收HttpContentDigest的结果,评估网页是否发生变化。 3. **...

    DeDuplicator (Heritrix add-on)-开源

    1. `LICENSE_DeDuplicator.txt`:包含了DeDuplicator的开源许可证信息,通常遵循的是MIT、GPL或Apache等常见开源协议,这允许用户自由地使用、修改和分发源代码。 2. `bin`:这个目录通常包含可执行文件,用户可以...

    开题报告.doc

    本设计将采用Lucene和Heritrix框架实现搜索引擎模块,Lucene是一款功能强大且灵活的全文搜索引擎库,Heritrix是一个基于Java的Web爬虫框架,能够高效地从Web上爬取数据。 三、时间进度安排 时间进度安排如下: * ...

    基于Lucene的搜索引擎

    1. **索引**:搜索引擎通过爬取网页(在本项目中可能使用Heritrix爬虫)收集信息,并将其转化为可搜索的结构化数据——索引。索引的过程包括分词、去除停用词、词干提取等文本预处理步骤,以及倒排索引的构建。 2. ...

    计算机科学与技术专业 本科毕业设计 中期报告示例

    - 基本掌握了Heritrix的配置和使用方法,包括环境搭建、参数设置等。 #### 二、未按计划完成工作任务的原因 - **网络爬虫的学习深度不足:** 由于初次接触Java语言,学习过程中花费了较多时间,导致在网络爬虫...

    基于Nutch的Web网站定向采集系统

    #### 摘要 本文主要讨论了基于Nutch的Web网站定向采集系统的构建方法和技术细节。首先对比分析了几款主流的开源网络抓取软件:Nutch、Heritrix、WCT(The Web Curator Tool)以及Web-Harvest,并在此基础上提出了...

    基于lucene的索引与搜索

    摘要 本文档主要探讨了基于Apache Lucene的索引与搜索技术,这是构建高效全文搜索引擎的关键组成部分。Lucene是一个开源的Java库,提供了强大的文本分析、索引和搜索功能,被广泛应用于各种信息检索系统中。 第一...

Global site tag (gtag.js) - Google Analytics