`
nepshi
  • 浏览: 49527 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
研究了一段时间的Nutch,对于索引的分布式构建有几点困惑: 1. 分布式索引如何处理全局信息,比如每个分布式索引中的term有自己的DF,在对多个索引进行搜索时,是否会合并这些DF。这个问题通过下面的验证得到了解决。 2. 会不会有同一个文档出现在多个索引中的情况。 提出这个问题主要是刚开始对Hadoop的机制不了解,通过设置Reducer可以保证同一个网页不会被处理两次,也就是不会在两个索引中出现。 3. DocID如何分配。这个问题还没有找到答案。刚和师兄讨论了下,发现自己把问题想复杂了,其实不用考虑全局的DocID,每个IndexReader都在自己内部排序,然后把所有IndexRead ...

Hadoop配置文件

${HADOOP_HOME}/conf目录下的配置文件: core-site.xml hadoop.tmp.dir: A base for other temporary directories(用来存储其他临时目录的根目录) fs.default.name: The name of the default file system.  A URI whose scheme and authority determine the FileSystem implementation.  The uri's scheme determines the config property (fs.SCHE ...
rsync rsync is a software application and network protocol for Unix-like and Windows systems which synchronizes files and directories from one location to another while minimizing data transfer using delta encoding when appropriate. rsync的同步算法 问题:文件A、B分别位于机器1、2上,如何使用最少的网络传输量来同步文件1和2? 1. 机器2将文件B按固定大小 ...

Nutch索引

NutchField package org.apache.nutch.indexer; class NutchField implements Writable { float weight; List values; } Metadata package org.apache.nutch.metadata class Metadata { Map metadata; } NutchDocument package org.apache.nutch.indexer; class NutchDocument { ...
HelloHadoop.class   Mapper static public class HelloMapper extends Mapper<LongWritable, Text, LongWritable, Text> { public void map(LongWritable key, Text value, Context context) { context.write((LongWritable)key, (Text)value); } } <LongWritable, Text, LongWritable, T ...
我发现我这个人很难专心做一件事情,本来打算好好学习下Hadoop,结果跟Eclipse卯上了,折腾了几天。 因为项目需要,倒腾了一下Hadoop在Eclipse下的开发环境,其中涉及到Eclipse的版本问题,Hadoop的权限问题。   Hadoop版本:hadoop-0.20.2 Ecipse版本:Helios/Indigo   问题描述: 1. 将hadoop-0.20.2/contrib/eclipse-plugin目录下的文件复制到Eclipse(Helios)下,设置好Map/Reduce Locations后,无法浏览DFS文件,连接出错。 排查后,发现是Eclip ...
Global site tag (gtag.js) - Google Analytics