Nutch是一个基于Lucene的搜索引擎应用.
一.准备工作
1.下载最新版的nutch-0.9(下载地址:http://lucene.apache.org/nutch/)放到d盘的d: nutch目录下
2.添加环境变量NUTCH_JAVA_HOME=jdk的安装路径
3.nutch需要在unix下跑,如果要装在windows上,需要安装cygwin(下载地址: http://www.cygwin.com/setup.exe)
二.爬取数据
运行cygwin
cd d:nutch
cd nutch-0.9
cygwin所示的当前目录为:/cygdrive/d/nutch/nutch-0.9
在此目录下执行命令:bin/nutch,如果正确的话,会有Usage:nutch COMMAND提示
在根目录下新建urls文件夹,在此文件夹下建文本文件nutch.txt,
其中的内容为:http://lucene.apache.org/nutch/
修改conf/crawl-urlfilter.txt,找到MY.DOMAIN.NAME,修改为:
+^http://([a-z0-9]*\.)*apache.org/
修改nutch-default.xml
设置http.agent.name,http.robots.agents, http.agent.description, http.agent.url, http.agent.email, http.agent.version的值,
http.agent.name不能为空
例如:
<name>http.agent.name</name>
<value>aaa</value>
<name>http.robots.agents</name>
<value>*</value>
<name>http.agent.description</name>
<value>Nutch</value>
<name>http.agent.url</name>
<value>http://lucene.apache.org/nutch/</value>
<name>http.agent.email</name>
<value>callan@126.com</value>
修改完成后运行 bin/nutch crawl urls -dir crawl -depth 3 -topN 50
depth 参数指爬行的深度
运行完成后,在根目录上会生成crawl文件夹
crawled中包含有segment, linkdb, indexed, index, crawldb文件夹
crawdb,linkdb是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。
segments 是主目录,存放抓回来的网页.页面内容有bytes[]的raw content 和 parsed text的形式.nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录
index 是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
Luke(http://www.getopt.org/luke)是一个索引阅读工具
三.运行
将nutch-0.9.war拷到tomcat的webapps目录下,解压,
进入webapps\nutch\WEB-INF\classes目录,将nutch-default.xml的search.dir设置为D:\nutch\nutch-0.9\crawl
运行tomcat
分享到:
相关推荐
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
Nutch在windows开发中程序运行环境的配置,可用于Java环境开发
Eclipse 中编译 Nutch-1.0 运行源代码
5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码
由于Nutch运行是基于Unix/Linux环境的,请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个工程代码后,进行本地git下载目录: cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 ...
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行
它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己 的搜索引擎所需的全部工具。... 与它们不同, Nutch没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫
资源中的其他文件夹是nutch爬去的中间结果文本形式,因为是在CentOS上运行调试的,所以windows需要notepad打开,可以供大家学习。 资源的crawl_dump文件夹是改进parse_html插件后的结果,同样也只能用notepad打开
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 ...
windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例
Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。