nutch1.3 command - chunguo.wang - ITeye博客

`

黎明lm

浏览: 300455 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

nutch1.3 command

博客分类：

nutch

阅读更多

抓取

bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log

steps in
1.读取urls目录下的站点添加到 crawldb里
bin/nutch inject <dir>/crawldb urls
2.创建一个segments,存放到目录下
bin/nutch generate <dir>/crawldb <dir>20090519/segments
3.根据文件夹下生成的下载列表获取页面内容
bin/nutch fetch <dir>/segments/<newdir>/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb dir/crawldb dir/segments/newdir
5.分析链接关系,生成反向链接
bin/nutch invertlinks dir/linkdb -dir dir/segments
6.创建页面内容索引
bin/nutch index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir
7.删除重复数据
bin/nutch dedup dir/indexes
8.合并索引文件
bin/nutch merge dir/index dir/indexes

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库：bin/nutch readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
  导出权重和相关的url信息：bin/nutch readdb d/crawldb/ -topN 20 urldb(out_dir)
  查看每个url地址的详细内容，导出数据：bin/nutch readdb d/crawldb/ -dump crawldb(out_dir)
  查看具体的url：bin/nutch readdb d/crawldb/ -url w
2.查看linkdb数据库的链接情况：bin/nutch readlinkdb d/linkdb/ -url w
  导出 linkdb数据库文件：bin/nutch readlinkdb d/linkdb/ -dump linkdb(out_dir)
3.查看segments：bin/nutch readseg -list -dir d/segments/ 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。
导出 segments：bin/nutch readseg -dump d/segments/nd segdb(out_dir)

man:输入bin/nutch 查看

0
顶

0
踩

分享到：

hadoop 性能调优 | Nutch: 读取 nutch抓取内容

2011-09-02 17:15
浏览 1280
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch1.3在myclipse部署工程源码: nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

Nutch 1.3 学习笔记: Nutch 1.3 学习笔记，讲的比较清楚的文档

Nutch1.3开发环境: 配置好的Nutch1.3开发环境，解压后直接导入Eclipse Workspace即可，调试通过，默认爬163两层，解决Eclipse3.6+版本无基于源码创建工程选项问题

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz: apache-nutch-1.3 的源码包，需要的可以看下

nutch-1.3源码: nutch-1.3源码，java版本，其他请参看手册。

apache-nutch-1.3: Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步... Nutch目前最新的版本为version1.3。

搭建nutch web开发环境: 一步一步详细解释了如何搭建nutch web开发环境，对nutch1.2有效，nutch1.3以上已经没有web这部分内容了

nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据: nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

nutch 初学文档教材: 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1...

Nutch相关框架视频教程: 资源名称：Nutch相关框架视频教程资源目录：【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

eclipse配置nutch，eclipse配置nutch: eclipse配置nutch，eclipse配置nutch

nutch的源码解读和nutch入门: 学习nutch 源码解读轻松入门搭建自己的nutch搜索引擎

Nutch搜索引擎的页面排序修改方法研究.kdh: Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理，但是很多情况下仍然不能满足需要。分析开源搜索引擎Nutch代码，研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...

Apache Nutch v1.15: Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对...

Nutch搜索引擎·Nutch浅入分析（第5期）: 1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析

nutch使用&Nutch;入门教程: nutch使用&Nutch;入门教程 pdf

Nutch搜索引擎·Nutch简单应用（第3期）: Nutch搜索引擎·Nutch简单应用（第3期） 1.1 Nutch 命令详解 1.2 Nutch 简单应用

Nutch中文教程nutcher.zip: nutcher 是 Apache Nutch 的中文教程，在github上托管。nutch社区目前缺少教程和文档，而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。 github地址： ...

Nutch相关框架视频教程讲义杨尚川: 1、通过nutch，诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理（1.2之后）。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop，在搜索界相当有名。 5、 ant构建之后，生成runtime...

开发基于 Nutch 的集群式搜索引擎: 介绍 Nutch 的背景知识，包括 Nutch 架构，爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中，首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站...

Global site tag (gtag.js) - Google Analytics