`

nutch1.3 command

 
阅读更多

抓取 

bin/nutch  crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log 

steps in 
1.读取urls目录下的站点添加 crawldb里 
bin/nutch  inject <dir>/crawldb urls 
2.创建一个segments,存放 目录下 
bin/nutch  generate <dir>/crawldb <dir>20090519/segments 
3.根据文件夹下生成的下载列表获取页面内容 
bin/nutch  fetch <dir>/segments/<newdir>/ 
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容 
bin/nutch  updatedb dir/crawldb dir/segments/newdir 
5.分析链接关系,生成反向链接 
bin/nutch  invertlinks dir/linkdb -dir dir/segments 
6.创建页面内容索引 
bin/nutch  index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir 
7.删除重复数据 
bin/nutch  dedup dir/indexes 
8.合并索引文件 
bin/nutch  merge dir/index dir/indexes 

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库 :bin/nutch  readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。 
  导出 权重和相关的url信息:bin/nutch  readdb d/crawldb/ -topN 20 urldb(out_dir) 
  查看每个url地址的详细内容,导出 数据:bin/nutch  readdb d/crawldb/ -dump crawldb(out_dir) 
  查看具体的url:bin/nutch  readdb d/crawldb/ -url w
2.查看linkdb数据库 的链接情况:bin/nutch  readlinkdb d/linkdb/ -url w 
  导出 linkdb数据库 文件:bin/nutch  readlinkdb d/linkdb/ -dump linkdb(out_dir) 
3.查看segments:bin/nutch  readseg -list -dir d/segments/ 可以看 每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。 
导出 segments:bin/nutch  readseg -dump d/segments/nd segdb(out_dir) 

man:输入bin/nutch 查看

0
0
分享到:
评论

相关推荐

    nutch1.3在myclipse部署工程源码

    nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

    Nutch 1.3 学习笔记

    Nutch 1.3 学习笔记,讲的比较清楚的文档

    Nutch1.3开发环境

    配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    apache-nutch-1.3 的源码包,需要的可以看下

    nutch-1.3源码

    nutch-1.3源码,java版本,其他请参看手册。

    apache-nutch-1.3

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步... Nutch目前最新的版本为version1.3。

    搭建nutch web开发环境

    一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    nutch 初学文档教材

    1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    eclipse配置nutch,eclipse配置nutch

    eclipse配置nutch,eclipse配置nutch

    nutch的源码解读和nutch入门

    学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎

    Nutch搜索引擎的页面排序修改方法研究.kdh

    Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...

    Apache Nutch v1.15

    Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析

    nutch使用&Nutch;入门教程

    nutch使用&Nutch;入门教程 pdf

    Nutch搜索引擎·Nutch简单应用(第3期)

    Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    Nutch相关框架视频教程 讲义 杨尚川

    1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime...

    开发基于 Nutch 的集群式搜索引擎

    介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站...

Global site tag (gtag.js) - Google Analytics