`
hsmyy198712
  • 浏览: 14779 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
最近在改写nutch的过程中遇到了多个classpath方面的问题,一时间暴露了我java基本功的缺乏,同时也暴露出了依赖eclipse所造成的恶果。下面将我遇到的问题总结出来,如果大家遇到了也可以尽快脱困。 (1)在nutch中本来存在的类 ...
这一回介绍Larin中的基本数据结构,其实这一部分对于每一个高水平的程序来说,都是相似的,但是在此还是废话一下。 首先从我接触到的第一个数据结构开始(因为我在详细阅读代码前首先做了些源代码修改工作)——Vector ...
这一回开始对Larbin的源代码进行学习。经过一段时间的学习,我发现larbin的架构还是不错的。而且他的架构中使用到了许多技术,在阅读源代码的过程中也可以捡起以前学过的东西。 进入%LARBIN_HOME%/src,我们可以看到许多源文件,这些源文件主要分为两大类: (1)主控类 main.cc : 主控程序,调度所有代码进行工作 global.h,global.cc : 实际上的核心程序,包含爬虫的所有核心内容 (2)配置类 option.h : 策略方面的配置 types.h : 具体数值的配置 关于具体数值的问题,我们在第二部分已经说过了,下面重点看main.cc (1)在ma ...
这篇主要讲larbin的配置问题,由于作者已经讲得很详细,在此我只把原文进行翻译提炼: (1)larbin对外的接口 作者为我们提供了一个文件,叫做%LARBIN_HOME%/src/interf/useroutput.cc,用户可以在这里面进行一些扩展操作。 具体的借口请看%LARBIN_HOME%/src/interf/useroutput.h,实现在上面的文件中。larbin自身已经实现了里面的所有接口,所以用户可以选择重新实现或者在上面做一些additional function。 (2)运行配置文件 larbin.conf 这个文件主要定义了一些量化的参数。 From :爬虫的 ...
Larbin是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。 目前它可以在linux下运行,对于windows下的运行情况目前尚不清楚(可能需要进行修改) 对于网络爬虫的基础知识,在此不做太多的介绍,本文只对爬虫的配置进行解说。 由于larbin的年头比较远(作者从上世纪开始编写),里面难免有一些与现在系统不一致的情况(作者于2003年停止了维护),所以我们在配置中需要修改它的源代码。 首先到它的官方网站: http://larbin.sourceforge.net/index-eng.html 下载larbin,这个程序是由法国人写的,因此对于Chinese来说一定要进英文版 ...
source document url:http://www.examda.com/linux/fudao/20071203/091041686.html Ubuntu的软件包格式是deb ,如果要安装rpm 的包,则要先用alien 把rpm转换成deb.     sudo apt-get install alien #alien 默认没有安装,所以首先要安装它     sudo alien xxxx.rpm # 将rpm 转换位deb ,完成后会生成一个同名的xxxx.deb     sudo dpkg -i xxxx.deb # 安装     注意,用alien 转换的deb 包 ...
source of the document:http://blog.csdn.net/guoguo1980/archive/2008/04/24/2324454.aspx lsof简介 lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描 ...

2010-09-11

(1)read the code of larbin , try to add the filter feature into the crawler. (2)read the book of Information Retrieval
将完成任务 (1)pro hadoop的tuning章节 (2)google File System paper (3)complete the test on nutch searching on depth of 3. week end task (1)read the source code of nutch
(1)安装配置过程     a.构建配置文件     conf/hadoop-env.sh     conf/hadoop-site.xml         fs.default.name         hadoop.tmp.dir     conf/slaves,conf/master     b.将安装包分发至各个机器上         chown 改成自己的     c.格式化HDFS         hadoop namenode format         Trouble Shooting:             (1)IOException:mybe permission de ...
(1)学习了基本的hadoop源码分析,对hadoop的内部结构有了一定的了解,但不深入 (2)阅读了两篇Introduction to Nutch,对Nutch的基本结构和实现有了一定的了解,下一步将对这两篇文章进行详细阅读和提炼 明天 (1)提炼两篇文章 (2)继续提炼pro hadoop中HDFS章节的内容 后天 (1)提炼mapreduce章节的内容 (2)寻找其他的开源爬虫
Global site tag (gtag.js) - Google Analytics