`

Larbin使用方法2

 
阅读更多

http://larbin.sourceforge.net/custom-eng.html
How to customize Larbin文中有介绍

配置文件larbin.conf文件各项简介:(修改配置文件不需要重新编译larbin)
###############################################
# Who are you ?
# mail of the one who launched larbin (YOUR mail)
From larbin2.6.3@unspecified.mail #//用于http头,web服务器管理员可通过该地址联

#//系执行larbin的人
# name of the bot (sent with http headers)
UserAgent larbin_2.6.3 #//客户端标志 ############################################
# What are the inputs and ouputs of larbin
# port on which is launched the http statistic webserver
# if unset or set to 0, no webserver is launched
httpPort 8081 #//laibin有一个简单的web服务器,可通过http://localhost::8081监控其

#//运行状态,如果该值为0,则不启动web服务器。
# port on which you can submit urls to fetch
# no input is possible if you comment this line or use port 0
inputPort 1976

############################################
# parameters to adapt depending on your network
# Number of connexions in parallel (to adapt depending of your network speed)
pagesConnexions 100 #//并行获取网页的数量,该值可依据网络带宽调整
# Number of dns calls in parallel
dnsConnexions 5 #//并行解析dns的数量
# How deep do you want to go in a site
depthInSite 5 #//网页抓取深度
# do you want to follow external links
noExternalLinks #//是否允许抓取域名外连接
# time between 2 calls on the same server (in sec) : NEVER less than 30
waitDuration 60 #//对同一个服务器获取网页的间隔时间
# Make requests through a proxy (use with care)
#proxy www 8080 #//代理地址

##############################################
# now, let's customize the search

# first page to fetch (you can specify several urls)
startUrl http://www.baidu.com #//抓取网页的起始URL,可指定多值

# Do you want to limit your search to a specific domain ?
# if yes, uncomment the following line
#limitToDomain .fr .dk .uk end

# What are the extensions you surely don't want
# never forbid .html, .htm and so on : larbin needs them

#//限制不被下载的对象的后缀,可通过注释或者增加后缀控制下载
forbiddenExtensions
.tar .gz .tgz .zip .Z .rpm .deb
.ps .dvi .pdf
.png .jpg .jpeg .bmp .smi .tiff .gif
.mov .avi .mpeg .mpg .mp3 .qt .wav .ram .rm
.jar .java .class .diff
.doc .xls .ppt .mdb .rtf .exe .pps .so .psd
end

 

 

 

附上

分享到:
评论

相关推荐

    如何配置Larbin - 翻译

    关于Larbin网络爬虫的权威文档,你可以在这里学会Larbin的详细配置方法,让你的Larbin工作得更好

    larbin源码 c++的网络爬虫

    larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫larbin源码 c++的网络爬虫

    修改好的larbin源代码

    修改好的larbin源代码,可以直接在ubuntu8.10下编译使用

    larbin2.6.3爬虫程序

    larbin2.6.3爬虫,错误已全部改正,已在ubuntu下通过运行,可进行简单的爬网页任务。

    Larbin

    主要是网络爬虫,整个网络进行景象,得到网络资源

    larbin 分析和win下移植

    介绍larbin原理和在win下怎么移植

    larbin 网络爬虫

    larbin是一种开源的网络爬虫/网络蜘蛛

    论文研究-Larbin的设计与优化 .pdf

    Larbin的设计与优化,叶建平,,搜索引擎是万维网能够更好为人类利用的重要工具。而网络爬虫是搜索引擎的核心组成部分。Larbin是一个高效,比较简单,而且功能比较

    larbin-高效网络爬虫

    LINUX下的网络爬虫。larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。

    Larbin搜索引擎源码赏析[整理].pdf

    Larbin搜索引擎源码赏析[整理].pdf

    larbin-2.6.3

    开源的网络爬虫,一个外国年轻人写的,有一定的参考价值,附件带有移植到windows的参考文档

    larbin源代码

    larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 larbin是一个被广大搜索引擎爱好者应当...

    larbin源码分析全解

    主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始讲解、分析代码。

    larbin开源代码

    这是开源的Linux源代工具原码,用于网络获取资源,分享的原因是它各种技巧的用法,包括一个简单的webserver,文件上传工具,他的高效性很很被认同。

    larbin编译环境及在scanner中搭建交叉编译环境

    larbin编译环境的搭建、larbin编译环境潜入web开发的漏扫(scanner)中的方法及一些对遇到的问题的说明

    larbin 搜索

    larbin 搜索,提供对网页的搜索。。。。。。。。

    网络蜘蛛Larbin的设计和优化.kdh

    网络蜘蛛Larbin的设计和优化,Larbin是利用c++开发的一种网络爬 虫,由法国人Sebastien Ailleret发布,因此 它是开源的(基于GPL标准)。Larbin最初 开发出来是为了XYLEME工程。Larbin的 目的是在网络上抓取xml页面,然后...

    larbin的头文件可用于网络爬虫

    这个是larbin的头文件,其实这个在哪都可以找到,我只想要赚点积分。各位乡亲父老好不好啊?

    网络爬虫larbin

    经典的网络爬虫,经典的larbin,采用asdn域名异步解析,单线程非阻塞模型。

Global site tag (gtag.js) - Google Analytics