Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?
今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式都会出错,最后还是跟人交流之后,用自己的方式尝试成功了.好了不费话了.下面说说如何成功导入Nutch1.0而不会出错.
前期准备工作及导入步骤:
1.下载Cygwin工具:http://www.cygwin.com并安装Cygwin.安装成功后,记得在我的电脑属性中配置环境变量:
编辑path属性,加入d:cygwin/bin到path中.
2.下载nutch软件包:
http://labs.renren.com/apache-mirror//nutch/一般下载bin包即可.
3.解压刚下载下来的nutch软件包.如,解压位置为:D:\nutch-1.04.在Eclipse或者是在MyEclipse中新建一个Java Project项目, 名字自己定义(Nutch). 选择”Create project from existing source”,指向自己nutch-1.0的目录.
4.点击下一步,切换到”Libraries”选择”Add Class Folder…” 按钮,从列表中选择”conf”. —->Default Output floder —->Brower-à从Create New Folder中…新建一个新文件夹 output.(这一步跟网上的所有办法都不一样.).
注意:修改output文件夹下面的nutch-site.xml文件:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>hpjianhua</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.163.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>hpjianhua@163.com</value>
<description></description>
</property>
5.点击Finish 来完成Nutch1.0的导入.
下面在MyEclipse或者是Eclipse中对Nutch1.0进行修改以去掉项目中提示的错误:
1. 修改conf文件夹下面的文件:
1.1修改nutch-site.xml文件:
<configuration>
<property>
<name>http.agent.name</name>
<value>nutch</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>hpjianhua</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.163.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>hpjianhua@163.com</value>
<description></description>
</property>
</configuration>
1.2修改nutch-defaul.xml文件:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
1.3修改crawl-urlfilter.txt文件:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
如果是Nutch1.1可以跳过下面的2 , 3, 4步,直接跑到第5步继续!
2. 下载MP3跟rtf的jar文件
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/,
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/
分别拷贝到src/plugin/parse-mp3/lib 和 src/plugin/parse-rtf/lib/文件夹下
3. 刷新几下,右键选择工程文件夹,选择Build Path->Configure Build Path…在弹出的窗口上,切换到Libraries,选择Add Jars…,添加刚才下载的jar文件到工程。
4.到这一步,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。
接下来的就是最关键的部分了。
修改—- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下RTFParseFactory.java
添加—– import org.apache.nutch.parse.ParseResult;
将 —– public Parse getParse(Content content) {
改为—- public ParseResult getParse(Content content) {
将 —- return new ParseStatus(ParseStatus.FAILED,
ParseStatus.FAILED_EXCEPTION,
e.toString()).getEmptyParse(conf);
改为—–return new ParseStatus(ParseStatus.FAILED,
ParseStatus.FAILED_EXCEPTION,
e.toString()).getEmptyParseResult(content.getUrl(), getConf());
将——return new ParseImpl(text,
new ParseData(ParseStatus.STATUS_SUCCESS,
title,
OutlinkExtractor.getOutlinks(text, this.conf),
content.getMetadata(),
metadata));
改为——return ParseResult.createParseResult(content.getUrl(),
new ParseImpl(text,
new ParseData(ParseStatus.STATUS_SUCCESS,
title,
OutlinkExtractor.getOutlinks(text, this.conf),
content.getMetadata(),
metadata)));
修改——src\plugin\parse-rtf\src\test\org\apache\nutch\parse\rtf下的TestRTFParser.java
将—–parse = new ParseUtil(conf).parseByExtensionId(“parse-rtf”, content);
改为—-parse = new ParseUtil(conf).parseByExtensionId(“parse-rtf”, content).get(urlString); 到这一步,eclipse上面的工程就会没有错误了 .
5.在nutch1.0的目录下新建立一个文件夹urls,然后再在urls中建立一个文本文件url. 写上链接。注意后面要有 “/”.
6.运行Nutch1.0:
选择Run->Run As->Java Application在弹出的Select Java Application上选择Crawl-org.apache.nutch.crawl. 接下来,
选择 Run->Run Configurations…在左边的Java Application下面会有Crawl这一项,选择它,
切换到Arguments,Program Arguments的内容就是要设置的参数,填上urls -dir crawl -depth 3 -topN 50(这里视自己的具体情况而定,urls为链接)
在VM arguments下面填上-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log.
直接运行吧:看在你的控制台上出现信息了没.
注意:关于Java Heap Size的问题,查看logs/hadoop.log或控制台输出,如果出现类似java.lang.OutOfMemoryError: Java heap space语句,
解决方法:
设置Eclipse -> Window -> Preferences -> Java -> Installed JREs -> edit -> Default VM arguments
7.设置为-Xms256m -Xmx1024m,其中Xms为最小内存,Xmx为最大内存.
分享到:
相关推荐
Nutch1.0的API,不过注意没有搜索功能
### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
将 Nutch 的源码导入到 MyEclipse 8.5 中可以方便开发者调试与修改代码。 #### 二、准备工作 1. **MyEclipse 8.5**:确保已经安装了最新版本的 MyEclipse 8.5。 2. **Nutch 1.2 源码**:下载 Nutch 1.2 的完整源码...
1. 获取Nutch1.0的源代码:首先从官方仓库或者Git仓库下载原始的Nutch1.0源代码。 2. 修改源代码:对源代码进行必要的修改,以支持中文分词。这可能包括修改配置文件,集成分词库,调整爬虫处理中文网页的逻辑等。 3...
### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还能进行内容分析、链接分析以及全文搜索。然而,Nutch的安装和配置可能对初学者来说有些...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
### Eclipse中编译Nutch-0.9:详解与步骤 #### 核心知识点概览 在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括...
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
nutch-1.0-dev.jar nutch devlope
### 在Eclipse中调试Nutch 1.0 #### 概述 本文旨在提供一个详细的指南,帮助用户在Eclipse IDE环境下配置并调试Nutch 1.0版本。Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件...
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 1.1.6 Cygwin 安装配置 1.2 Eclipse 开发 ...1.2.3 Solr 与Nutch 结合
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等