资料准备:setup.exe 这个是在windows上模拟liunx用的一个终端,下载地址:http://www.cygwin.com/(安装后注意设置环境变量CYGWIN_HOME,然后把它的bin加到path目录)
nutch 1.4 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
ant 1.8 下载地址:http://ant.apache.org/
下载好nutch 后,将它存在E:/根目录下,其它目录也可以的,然后执行setup.exe安装cygwin,具体安装流程,就不多说了,那个网上挺多的。
下来,cmd->到nutch的根目录,执行ant,对整个工程进行编译,大概需要20分钟时间,去喝杯茶,放松一下吧。
编译完以后,要开eclipse,新建java project,使用nutch作为工程内容,然后next-> add libary 选择add class folder选中conf文件,完成就OK。
你在网上会发现很多解答提到crawl-urlfilter.txt,而在1.4是没有这个文件的,不过多了regex-urlfilter.txt,在这个里面加入+^http://([a-z0-9]*\.)*163\.com 这个代表只抓取www.163.com的内容,然后在nutch-site.xml
<property>
<name>http.agent.name</name>
<value>haininghacker</value>
</property>
<property>
<name>http.agent.url</name>
<value>www.163.com</value>
</property>
加入下面这段,现在还差最后一步,打开Run configurations.. 打开arguments选择,在program arguments里面输入urls -dir crawl -depth 5 -threads 4 -topN 10 然后在VM arguments输入-Xms64m -Xmx512m OK了,来享受抓取网页的成就感吧,running......
遇到问题:
nutch eclipse 下跑出现 IOException: Cannot run program "chmod": CreateProcess error=2, ?t?问题 :
问题原因:没有安装cygwin 或 没有配置环境变量
解决办法:安装并配置环境变量 bin到 path下 重启 eclipse 问题解决
来源:http://hi.baidu.com/haininghacker/blog/item/dd91173c08e882d89f3d6285.html
分享到:
相关推荐
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
Apache Nutch 是一个开源的网络爬虫框架,用于...通过以上步骤,你将在Windows环境下成功配置并运行Nutch 1.4。这个过程可能需要一些时间和耐心,但完成后,你将能够自定义Nutch的爬虫行为,抓取并处理你需要的数据。
通过以上步骤,可以在 Windows XP SP2 环境下成功安装并配置 Nutch。这不仅能够帮助用户了解搜索引擎的工作原理和技术细节,还可以为开发自己的搜索引擎项目打下坚实的基础。随着对 Nutch 的深入学习和实践,相信会...
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用...
在完成爬行后,你可以继续使用Nutch进行索引和搜索,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch index`等命令来管理抓取的数据。 总之,Nutch的安装和使用涉及多个步骤,包括环境配置、源代码获取、配置...
要获取和解压这些源码,你可以使用各种工具,如在Linux或Mac系统中使用命令行的tar和unzip命令,或者在Windows中使用WinRAR、7-Zip等图形界面工具。解压后,你将看到一个包含多个目录和文件的结构,这些目录和文件...
1. **Java 1.4.x**:推荐使用Sun或IBM提供的Java环境,确保在Linux系统上安装并设置`NUTCH_JAVA_HOME`环境变量指向JVM根目录。 2. **Apache Tomcat 4.x**:作为Nutch运行时的服务器平台。 3. **Cygwin**(仅Windows...