参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。
nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。
一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。
parse-html跟目录中包含3个xml分别是build.xml、 ivy.xml、 plugin.xml,一个源程序目录src。
实现了接口的类为java.org.apache.nutch.parse.html.HtmlParser.java ,所有的可实现接口都包含在src\plugin\nutch-extensionpoints\plugin.xml中
接口示例如下所示:
public class HtmlParser implements Parser {
.....
public ParseResult getParse(Content content) {
.....
}
.....
}
依据实现类分别修改
build.xml、 ivy.xml、 plugin.xml文件。
从代码中可以看到实现了Parser接口, getParse()为接口中定义的方法。
二、实现接口编写代码完毕后修改配置步骤如下:
1、src/plugin/build.xml在<target name="deploy">;<target name="test">;<target name="clean">分别增加相应配置。
2、修改nutch/build.xml文件在<target name="release" depends="compile-core" description="generate the release distribution">中增加配置如:<packageset dir="${plugins.dir}/parse-js/src/java"/>
3、 修改${plugins.dir}/parse-js/src/build.xml ,修改project标签 name值为"parse-js"
运行ant编译,nutch/build中编译生成相应的文件夹即成功。
三、将插件配置到 nutch中:
修改nutch/conf/nutch-default.xml文件中的<name>plugin.includes</name><value></value>将新的插件包添加到value中,语法请参考已配置插件的语法规则。
分享到:
相关推荐
Nutch 1.4是该项目的一个稳定版本,发布于2012年,尽管后续有更新的版本,但1.4版本因其稳定性及广泛的应用而备受青睐。在深入探讨Nutch 1.4的知识点之前,我们先来了解一下什么是Apache Nutch。 Apache Nutch是一...
**1.4 Nutch VS Lucene** Nutch与Lucene的主要区别在于,Lucene主要用于文本索引和搜索,但它不是一个完整的搜索引擎;而Nutch不仅包含Lucene的索引能力,还集成了网页抓取、链接分析等更多功能,是一个全面的搜索...
- **编写plugin**:遵循Nutch的API规范,开发自定义插件以满足特定需求。 #### 8. nutch分析方法和工具 Nutch提供了多种工具,如Crawldb、Linkdb、Segments和Index等,用于分析爬虫效果、索引质量和搜索性能,帮助...
1. **JDK (Java Development Kit)**:版本需支持 1.4.x 或更高,本文档中安装的是 JDK 1.5。 2. **Apache Tomcat**:版本 4.x 或以上,本文档中使用的是 Tomcat 5.5。 3. **Cygwin**:用于模拟 Linux 环境,在 ...