下面十个步骤能安装Nutch, 并且能爬行你的网站, 创建你自己网站的Web DB。
如果你有任何问题, 请给我邮件:mail.swapnilk@gmail.com
步骤 1:
从这里下载最新的程序:
http://www.apache.org/dyn/closer.cgi/nutch/
步骤 2:
创建文件夹:
sudo mkdir /usr/local/nutchsudo mkdir /usr/local/nutch/frameworksudo mkdir /usr/local/nutch/dist
步骤 3:
拷贝程序到下面这个目录:
sudo cp apache-nutch-1.4-bin.tar.gz /usr/local/nutch/dist/
步骤 4:
解压
sudo tar -xvzf apache-nutch-1.4-bin.tar.gz -C /usr/local/nutch/framework/
步骤 5:
修改权限, 使其可以执行
sudo chmod +x /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch
步骤 6:
创建种子文件
sudo mkdir -p /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urlssudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urls/nutch
加入下面这行到
nutch.txt
http://www.inkebook.com/
步骤 7:
编辑文件加入 Agent
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/nutch-site.xml
加入下面这个配置
http.agent.nameMy Spider
步骤 8:
编辑正则表达式文件
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/regex-urlfilter.txt
替换
# accept anything else
+.
成这样
# accept anything else#+.
然后再加入这行
+^http://([a-z0-9]*\.)* www.inkebook.com/
步骤 9:
设置 JDK 及设置环境变量 JAVA_HOME
sudo add-apt-repository ppa:ferramroberto/javasudo apt-get updatesudo apt-get install sun-java6-jdksudo apt-get install sun-java6-jdk sun-java6-jre sun-java6-plugin sun-java6-fontsexport JAVA_HOME=/usr
步骤 10:
开始爬行网站!
/usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch crawl urls -dir crawl -depth 10 -topN 1000
分享到:
相关推荐
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.
nutch2.2.1安装步骤,需要自己下载以下软件: apache-ant-1.10.5-bin.tar.gz apache-nutch-2.2.1-src.tar.gz apache-tomcat-8.5.39.tar.gz jdk-8u201-linux-x64.tar.gz solr-4.10.3.zip
Ubuntu_Nutch_.pdf
windows下安装nutch 各异常说明
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
详细解释了如何搭建nutch开发环境,每一个步骤都有详细说明
windows下nutch的安装.pdf
Apache Nutch 1.7 在windows和Linux下的安装,有详细的图示和步骤说明,测试过多次。
介绍关于Nutch的安装
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
nutch1.4 在windows下的安装配置环境搭建
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用...
nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
好动系,我自己从网上下的,一步一步教你怎么做,很容易上手的!
自己整理的亲测可用,已经安装了几遍,喜欢的可以看看
Nutch在windows下的安装.pdf
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间...
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用