LinkDb
map :LinkDb
输入目录为segments目录里面所有segment下面的parse_data目录
1 首先对key:url 如果配置filter和normalize 则进行filter和normalize
2 如果url不为空 则分析他的外链,db.ignore.internal.links配置为true,如果源链接和外链都是同一个host name 则忽略
3 如果配置filter和normalize ,对外链进行,则进行filter和normalize
4 写入,key:外链的url,value:源url
reduce LinkDbMerger key:Text url value:Inlinks,入链
1 合并相同的key的value.为list 这里有个db.max.inlinks这个配置最大的外链数目,如果超过这个,则其余的抛弃。
2 写入 输出目录为 Path newLinkDb =
new Path("linkdb-" +
Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));
如果存在linkdb则需要合并
合并的job:createMergeJob
map :LinkDbFilter 输入目录上个job的输出 ,linkdb/current
1 首先对key:url 如果配置filter和normalize 则进行filter和normalize
2 如果key 不为空,遍历value,对每个value 也是url,如果配置filter和normalize 则进行filter和normalize ,如果不为空加入Inlinks,,如果Inlinks 不为空写入key:Text url,value:Inlinks
reduce: LinkDbMerger 同job1
LinkDb.install(job, linkDb); 替换原来的linkdb。如果linkdb/old 存在,则删除,把linkdb/current 重命名为linkdb/old ,把上个job的输出变成linkdb/current,删除linkdb/old
linkdb/old
- 大小: 26.5 KB
分享到:
相关推荐
Windows下使用Eclipse配置Nutch2图文详解
对于nutch源码的解读,让你了解nutch工作流程各个功能模块的作用
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch各个配置项的详细说明,非常详细的说明了每一项
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch平台的详细搭建过程 配置环境 抓取 建立索引 查看结果
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
eclipse配置nutch,eclipse配置nutch
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
nutch使用&Nutch;入门教程 pdf
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...
介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站...
nutch配置nutch-default.xml
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime...
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.