nutch 0.9在Windows下的安装
转载自:http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html
一、环境:
1.操作系统:windowsXp,windows2000+
2.java1.6,设置JAVA_HOME到环境变量
3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
4.nutch版本:0.9
5.tomcat:6.0
二、nutch的安装和配置:
1,安装Cygwin1.5.5(我这里装到d:\cygSys),将nutch解压缩后放置到一个目录下(我放在d:\nutch下)
2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是类似于执行java命令一样,让你指定一些参数。
3,进行抓取网站的测试,以抓取http://www.163.com/为例
1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在D:\nutch\home\myurl),另外再建立一个爬虫日志目录logs(我放在D:\nutch\home\logs文件夹下,真正抓取的时候在命令行里面需要指定这个目录还有具体文件名。)
2) 打开nutch-0.9\conf\nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
3) 打开nutch-0.9\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*\.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行)。
4) 切换到 nutch 命令所在的bin目录,然后运行爬虫,在Cygwin输入以下命令:
./nutch crawl ../home/myurl -dir ../getContent -depth 4 -threads 5 -topN 1000 >&../home/logs/crawl1.log
../home/myurl 上面指定的爬取得URL
-dir ../getContent 爬取并分析后的索引存放目录
-depth 4 深度
-threads 5 线程数
需要注意点是在1000后面要跟一个空格,要不然会出现错误。
&../home/logs/crawl1.log 最后就是log的名字
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。
5,在tomcat上运行Nutch
把nutch-0.9.war拷贝到Tomcat\webapps\下面
在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:
<configuration>
<property>
<name>searcher.dir</name>
<value>D:\\nutch\\getContent</value>
</property>
</configuration>
拷贝的时候 <configuration>标记 可不要和元配置文件里的重复啊。
为了支持中文的搜索,修改Tomcat\conf\server.xml。找到对应的地方修改成
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
在浏览器中输入http://localhost:8080/nutch-0.9,然后就可以从爬取结果里面检索了。
- 大小: 86.3 KB
分享到:
相关推荐
nutch 0.9 版代码包,包含src源代码,war可直接部署到tomcat中的war包,以及爬取网页的可执行文件,nutch crawl文件。
nutch 0.9分页代码(粘贴可用)
Eclipse 编译 Nutch-0.9
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
nutch1.4 在windows下的安装配置环境搭建
Nutch在windows下的安装.pdf
Apache Nutch 1.7 在windows和Linux下的安装,有详细的图示和步骤说明,测试过多次。
windows下安装nutch 各异常说明
eclipse配置nutch,eclipse配置nutch
亲测好用
Nutch在windows下的安装[归纳].pdf
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机 会但我不想因此放弃对搜索引擎学习和实战在...Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录
windows下nutch的安装.pdf
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索...下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
参考文章 http://blog.csdn.net/handyhuang/article/details/7421553
windows下nutch的安装配置以及与tomcat的集成.doc
nutch 1.4 在windows下安装配置
Windows 下安装使用nutch.doc
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.