nutch安装
安装软件准备
安装环境:centos 6.5
nutch:v2.2.1
hbase:v0.94.18
本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;
安装步骤:
- 安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量
写道[hadoop@master nutch]$ vim /etc/profile添加:ANT_HOME=/usr/local/ant 变量,并将AN_HOMT添加到PATH
- 下载nutch安装包:http://nutch.apache.org/downloads.html,下载目前最新的apache-nutch-2.2.1-src.tar.gz
[hadoop@master nutch]$ wget -P /usr/local/ http://www.apache.org/dyn/closer.cgi/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz
下载压缩包到/usr/local/目录下,软后解压赋予权限[hadoop@master local]$ chmod 777 apache-nutch-2.2.1-src.tar.gz [hadoop@master local]$ tar zxvf apache-nutch-2.2.1-src.tar.gz [hadoop@master local]$ mv apache-nutch-2.2.1 nutch [hadoop@master local]$ cd nutch/
- 修改nutch的conf/nutch-site.xml文件,添加如下代码:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property> <property> <name>http.agent.name</name> <value>Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36</value> </property>
- 修改ivy/ivy.xml文件,找到:
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
并把原有的注释去掉
- 修改conf/gola.properies:
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
并注释掉默认的数据库存储配置:#gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver #gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest #gora.sqlstore.jdbc.user=sa #gora.sqlstore.jdbc.password=
- ant编译nutch:切换到nutch目录:
[hadoop@master local]$ cd nutch [hadoop@master nutch]$ ant
编译过程会等待一段时间。 - 修改nutch配置文件:在编译nutch源文件前,为了支持hbase存储,需要修改相应的配置:
#拷贝hbase的配置文件到nutch cp /usr/local/hbase/conf/hbase-site.xml /usr/local/nutch/conf/
复制hbase的jar包到nutch,本人安装的hbase是hbase0.94.18,nutch自带的gora0.3是只能支持到最高hbase0.92,默认是hbase0.90,而默认的0.90jar包去操作0.94的hbase,导致一个异常:java.lang.IllegalArgumentException: Not a host:port pair
应该是低版本hbase client操作高版本hbase server的常见错误,但也不能直接用0.94的hbase jar包去替换,不然又会导致另一个错误:java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
解决办法:我们选择hbase 0.92 到 0.93之间的版本,首先尝试0.92版本,可以从maven中心库下载:http://central.maven.org/maven2/org/apache/hbase/hbase/0.92.2/hbase-0.92.2.jar
然后将hbase-0.92.2.jar包替换nutch - 设置抓取网址: 编译后切换到目录:
[hadoop@master nutch]$ cd runtime/local/ [hadoop@master local]$ mkdir -p urls [hadoop@master local]$ vim urls/seed.txt
填写seed.txt内容: http://www.apache.org/ 每一行为一个目标地址;并将urls目录放到hdfs文件系统上:hadoop fs -copyFromLocal urls /home/hadoop/urls
- 运行nutch测试:执行nutch inject将网页种子放到hbase中
[hadoop@master local]$ bin/nutch inject /home/hadoop/urls
查看hbase中表:hbase shell 进入到hbaseshell后查看表 >list
看到有表“webpage”则表示成功; - 然后一次执行
[hadoop@master local]$ bin/nutch generate -topN 3 [hadoop@master local]$ bin/nutch fetch -all [hadoop@master local]$ bin/nutch parse -all [hadoop@master local]$ bin/nutch updatedb
- 切换到hbase shell或使用hbase client查看数据
相关推荐
nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
大数据技术 Hadoop开发者第二期 Nutch MapReduce HDFS Hive Mahout HBase 共64页.r
使用github中最新的nutch-2.x源码,奋战10天拿下的Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3配置攻略,在ubuntu14.04上成功运行本地和分布式爬虫。文档详细描述了三者版本不兼容问题的解决方案以及各个配置文件的详细...
windows下nutch的安装配置以及与tomcat的集成.doc
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
eclipse配置nutch,eclipse配置nutch
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
nutch使用&Nutch;入门教程 pdf
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后前端展示查询结果,用户点击结果列表查看目标资料。
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
nutch配置nutch-default.xml
介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站...
nutch插件,安装nutch插件,mysql与nutch
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime...