Larbin是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。
目前它可以在linux下运行,对于windows下的运行情况目前尚不清楚(可能需要进行修改)
对于网络爬虫的基础知识,在此不做太多的介绍,本文只对爬虫的配置进行解说。
由于larbin的年头比较远(作者从上世纪开始编写),里面难免有一些与现在系统不一致的情况(作者于2003年停止了维护),所以我们在配置中需要修改它的源代码。
首先到它的官方网站:
http://larbin.sourceforge.net/index-eng.html
下载larbin,这个程序是由法国人写的,因此对于Chinese来说一定要进英文版的首页
由于下载到的内容是他的源代码,而非二进制版,所以我们要做编译。
(1)首先在linux 的CMD下,运行./configure,它会生成一系列的文件,当然,在结尾处可能会有错误,不过这个没有关系
(2)把所有源文件中包含“#include<iostream.h>”的内容改变为“#include<iostream>”,并且在文件中加入“using namespace std;”原因就不说了。
检查哪个文件包含了这句话,可以用grep实现:
grep -nR "include<iostream.h>" ./
具体的修改还没有好的办法。
(3)此时再运行make命令,如果不出意外,系统会报一个重定义的错误。这时我们可以找到%LARBIN_HOME%/adsn/interal.h,将其中冲突的那个函数注释掉。
(4)对于一些系统还说,可能还需要安装一个makedepend的东西,在ubuntu下,使用如下命令:
sudo apt-get install xutils-dev
(5)对于本人来说,到这里我的larbin就可以使用了。
下一节将重点讲一下larbin的配置。
分享到:
相关推荐
larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫
经典的网络爬虫,经典的larbin,采用asdn域名异步解析,单线程非阻塞模型。
LINUX下的网络爬虫。larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。
larbin是一种开源的网络爬虫/网络蜘蛛
关于Larbin网络爬虫的权威文档,你可以在这里学会Larbin的详细配置方法,让你的Larbin工作得更好
larbin2.6.3爬虫,错误已全部改正,已在ubuntu下通过运行,可进行简单的爬网页任务。
larbin网络爬虫的体系结构[参照].pdf
这个是larbin的头文件,其实这个在哪都可以找到,我只想要赚点积分。各位乡亲父老好不好啊?
latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch。...
latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch。...
latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看 到,一个简单的larbin的爬虫可以每天获取500万的网页,非常高效。 Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch.二者均...
网络蜘蛛Larbin的设计和优化,Larbin是利用c++开发的一种网络爬 虫,由法国人Sebastien Ailleret发布,因此 它是开源的(基于GPL标准)。Larbin最初 开发出来是为了XYLEME工程。Larbin的 目的是在网络上抓取xml页面,然后...
主要是网络爬虫,整个网络进行景象,得到网络资源
Larbin的设计与优化,叶建平,,搜索引擎是万维网能够更好为人类利用的重要工具。而网络爬虫是搜索引擎的核心组成部分。Larbin是一个高效,比较简单,而且功能比较
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 larbin是一个被广大搜索引擎爱好者应当...
主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始讲解、分析代码。
开源的网络爬虫,一个外国年轻人写的,有一定的参考价值,附件带有移植到windows的参考文档
一个高手写的东西 值得一看
修改好的larbin源代码,可以直接在ubuntu8.10下编译使用
介绍larbin原理和在win下怎么移植