`
tt9576
  • 浏览: 5282 次
文章分类
社区版块
存档分类
最新评论

nutch 安装部署 以nutch2.3.1 为例

阅读更多
[/size][size=medium]最近在研究nutch 在Ubuntu系统上安装部署nutch,nutch安装步骤如下:
1、先 安装ANT (ant下载安装包就不写了 百度一大把)
//解压 ant
sudo tar -zxvf   /usr/test/soft/apache-ant-1.9.7-bin.tar.gz -C /usr
//移动ant (这里只是把安装的文件放到一目录下,方便管理。)
sudo mv /usr/test/apache-ant-1.9.7 /usr/test/ant1.9
修改/usr/test/ant1.9/bin/ant文件,添加如下内容
export JAVA_HOME=/usr/jdk1.7    
这里需要修改在ant文件中添加java_home 的路径

2、安装nutch
//解压nutch
sudo tar -zxvf /usr/test/soft/apache-nutch-2.3.1-src.tar.gz -C /usr

//移动nutch
sudo mv /usr/test/apache-nutch-2.3.1/usr/test/nutch2.3

修改/usr/jiankongyun/nutch2.3/ivy/ivy.xml文件,添加如下内容
<dependency org="org.apache.gora" name="gora-mongodb" rev="0.6.1" conf="*->default" />
//这里用的是mongodb3.2 安装步骤后面的会有详细的文章 特别注意的一点就是 gora 的版本一定要对应,版本太高或者太低都会出现不兼容的问题,还是尽量使用官方的推荐版本

//编译nutch
cd /usr/test/nutch2.3
/usr/test/ant1.9/bin/ant runtime 

编译nutch的过程中 你可能会得到如下错误:
Trying to override old definition of task javac
  [taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.


ivy-probe-antlib:


ivy-download:
  [taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.
解决方法:
下载sonar-ant-task-2.1.jar,将其拷贝到nutch2.3/lib 目录下面
修改build.xml,引入上面添加的jar包:
<!-- Define the Sonar task if this hasn't been done in a common script -->
<taskdef uri="antlib:org.sonar.ant" resource="org/sonar/ant/antlib.xml">
    <classpath path="${ant.library.dir}" />
    <classpath path="${mysql.library.dir}" />
    <classpath><fileset dir="." includes="sonar*.jar" /></classpath>
</taskdef>

添加完成后再次运行 编译nutch 就可以了。

当然有什么不懂的 可以留言我们www.jiankongyun.net可以多多交流
分享到:
评论

相关推荐

    nutch2.3.1安装文档教程

    自己整理的亲测可用,已经安装了几遍,喜欢的可以看看

    Nutch2.3.1 环境搭建

    Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 亲测可用,我自己安装和搭建过程的记录文档

    apache-nutch-2.3.1-src.tar.gz

    apache-nutch-2.3.1-src.tar.gz

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 3)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    Apache Nutch Java网络爬虫系统 v2.3.1

    Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引

    Apache Nutch v2.3.1

    自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 2)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    apache-nutch-2.3.1-src

    apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 1)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 4)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    Nutch-NewsClassify:基于nutch的新闻分类系统

    ## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...

    Hadoop权威指南(中文版)2015上传.rar

    2.3.1 测试驱动 2.4 客户机 2.4.1 Java 2.4.2 Avro,REST,以及Thrift 2.5 示例 2.5.1 模式 2.5.2 加载数据 2.5.3 Web查询 2.6 HBase和RDBMS的比较 2.6.1 成功的服务 2.6.2 HBase 2.6.3 实例:HBase在Streamy.com的...

    Hadoop权威指南 第二版(中文版)

     2.3.1 测试驱动  2.4 客户机  2.4.1 Java  2.4.2 Avro,REST,以及Thrift  2.5 示例  2.5.1 模式  2.5.2 加载数据  2.5.3 Web查询  2.6 HBase和RDBMS的比较  2.6.1 成功的服务  2.6.2 HBase  2.6.3 ...

    自己动手写搜索引擎(罗刚著).doc

    2.2.4 Nutch网络搜索软件 15 2.2.5 用户界面 17 2.3 商业搜索引擎技术介绍 17 2.3.1 通用搜索 17 2.3.2 垂直搜索 18 2.3.3 站内搜索 19 2.3.4 桌面搜索 21 2.4 本章小结 21 第3章 获得海量数据 22 3.1 自己的网络...

Global site tag (gtag.js) - Google Analytics