`
Callan
  • 浏览: 730983 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Nutch的安装与运行

阅读更多
Nutch是一个基于Lucene的搜索引擎应用.

一.准备工作
1.下载最新版的nutch-0.9(下载地址:http://lucene.apache.org/nutch/)放到d盘的d: nutch目录下
2.添加环境变量NUTCH_JAVA_HOME=jdk的安装路径
3.nutch需要在unix下跑,如果要装在windows上,需要安装cygwin(下载地址: http://www.cygwin.com/setup.exe)

二.爬取数据

运行cygwin
cd d:nutch
cd nutch-0.9
cygwin所示的当前目录为:/cygdrive/d/nutch/nutch-0.9
在此目录下执行命令:bin/nutch,如果正确的话,会有Usage:nutch COMMAND提示


在根目录下新建urls文件夹,在此文件夹下建文本文件nutch.txt,
其中的内容为:http://lucene.apache.org/nutch/

修改conf/crawl-urlfilter.txt,找到MY.DOMAIN.NAME,修改为:
+^http://([a-z0-9]*\.)*apache.org/

修改nutch-default.xml
设置http.agent.name,http.robots.agents, http.agent.description, http.agent.url, http.agent.email, http.agent.version的值,
http.agent.name不能为空

例如:
<name>http.agent.name</name>
<value>aaa</value>

<name>http.robots.agents</name>
<value>*</value>

<name>http.agent.description</name>
<value>Nutch</value>

<name>http.agent.url</name>
<value>http://lucene.apache.org/nutch/</value>

<name>http.agent.email</name>
<value>callan@126.com</value>

修改完成后运行 bin/nutch crawl urls -dir crawl -depth 3 -topN 50
depth 参数指爬行的深度
运行完成后,在根目录上会生成crawl文件夹

crawled中包含有segment, linkdb, indexed, index, crawldb文件夹
crawdb,linkdb是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。

segments 是主目录,存放抓回来的网页.页面内容有bytes[]的raw content 和 parsed text的形式.nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录

index 是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
Luke(http://www.getopt.org/luke)是一个索引阅读工具


三.运行
将nutch-0.9.war拷到tomcat的webapps目录下,解压,
进入webapps\nutch\WEB-INF\classes目录,将nutch-default.xml的search.dir设置为D:\nutch\nutch-0.9\crawl
运行tomcat

分享到:
评论

相关推荐

    nutch安装开发环境的配置

    我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法

    提高nutch运行效率的原理与方法

    提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。

    nutch 初学文档教材

    2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...

    Nutch在Windows中安装之细解

    由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

    Nutch程序运行环境配置

    Nutch在windows开发中程序运行环境的配置,可用于Java环境开发

    Eclipse中编译Nutch-1.0

    Eclipse 中编译 Nutch-1.0 运行源代码

    Nutch相关框架视频教程 讲义 杨尚川

    5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给...

    nutch-1.5.1源码

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    由于Nutch运行是基于Unix/Linux环境的,请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个工程代码后,进行本地git下载目录: cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 ...

    Nutch 配置

    Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行

    nutch入门教程

    它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 2)

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己 的搜索引擎所需的全部工具。... 与它们不同, Nutch没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果

    Windows下配置nutch

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫

    Nutch执行单步执行、中间结果文件分析和插件开发基础

    资源中的其他文件夹是nutch爬去的中间结果文本形式,因为是在CentOS上运行调试的,所以windows需要notepad打开,可以供大家学习。 资源的crawl_dump文件夹是改进parse_html插件后的结果,同样也只能用notepad打开

    Nutch入门.rar

    2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 ...

    windows7环境下配置nutch

    windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例

    Nutch 1.7 Windows 批处理脚本

    Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。

Global site tag (gtag.js) - Google Analytics