- 浏览: 475357 次
- 性别:
- 来自: 湖南
文章分类
- 全部博客 (201)
- j2ee (43)
- oracle (9)
- mysql (7)
- db2 (1)
- j2se (3)
- spring (1)
- hibernate (3)
- struts (0)
- Berkeley DB (0)
- linux (60)
- Apache2+PHP+MYSQL (2)
- solr (15)
- svn (1)
- IntelliJ Idea (1)
- eclipse,myeclipse (4)
- ant (2)
- vim (8)
- IT生活 (4)
- 测试 (6)
- lucene (4)
- shell (1)
- nutch (18)
- thread (1)
- hadoop (5)
- mapreduce (0)
- Python (4)
- 硬件 (1)
- database (1)
- maven (1)
- 正则表达 (0)
- 互联网 (1)
最新评论
-
youngcoder:
good job
HTTP协议头部与Keep-Alive模式详解 -
javazdq:
受教了 解释的不错。
lucene创建索引高级特性和索引创建参数优化 -
josico:
有几个问题想问下楼主1. LinkedBlockingQueu ...
生产者-消费者-BlockingQueue -
annybz:
有没有关于 BlockingQueue和ConcurrentL ...
生产者-消费者-BlockingQueue -
uniquejava:
多谢,记录的很真实。
DB2 学习记录
Nutch-0.9源代码:Crawl类整体分析
Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令 行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源 代码来了解Nutch是如何根据接收的命令行进行配置及其启动的。
org.apache.nutch.crawl.Crawl类的主函数如下所示:
// 应该知道,Nutch查找文件系统是基于Linux系统的机制的,所以提供启动的命令与Linux的Shell命令很相似。 public static void main(String args[]) throws Exception { Configuration conf = NutchConfiguration.create(); // 使用静态类NutchConfiguration创建一个org.apache.hadoop.conf.Configuration实例,可以在Hadoop的源代码中查看到该类的定义(读取hadoop-site.xml配置文件)
Path rootUrlDir = null; // 初始URLs文件所在的目录,使用Hadoop的org.apache.hadoop.fs.Path类创建目录 for (int i = 0; i < args.length; i++) { // 根据读取的命令行,设置抓取工作配置信息。
FileSystem fs = FileSystem.get(job); // 根据抓取工作配置JobConf创建一个用来存放抓取到的网页的目录。
if (LOG.isInfoEnabled()) { // 登录日志信息
// 在目录dir下面创建下面5个目录,用来存放,抓取工作过程中不同操作生成的文件或者目录。
Path tmpDir = job.getLocalPath("crawl"+Path.SEPARATOR+getDate()); indexer.index(indexes, crawlDb, linkDb, fs.listPaths(segments)); // 索引过程
|
通过上面的源代码的整体分析,总结一下具体都在这里做了哪些工作:
1、读取命令行参数,合法以后才继续初始化配置实例;
2、通过读取hadoop-site.xml配置文件,初始化一个Configuration实例,并根据crawl-tool.xml文件内容设置抓取工作配置;
3、设置一些默认抓取工作参数,如果命令行中没有指定就会按照默认的参数值进行抓取工作的执行,比如,抓取工作抓取到的网页文件存放目录rootUrlDir、启动的抓取工作进程数threads、抓取深度depth、抓取网页数量topN;
4、创建抓取工作抓取到的网页文件的存放目录,及其子目录(crawldb、linkdb、segments、indexes、index),这些子目录有的是用来存放原生网页,有的是预处理网页文件,有的是网页解析出的文本内容及其其它相关数据等等;
5、在抓取工作及其索引过程中,要进行很多操作来对网页文件或数据进行处理,这通过初始化一些实现了这些操作的类的实例来完成的,例 如:Injector、Generator、Fetcher、ParseSegment、CrawlDb、LinkDb、Indexer、 DeleteDuplicates、IndexMerger。这些类中,有的是作为实体类,像CrawlDb、LinkDb,它们需要在抓取工作执行过程 中及时更新,保持数据状态的处于良好正确状态。
6、最后,就开始执行相关操作了,包括初始化CrawlDb、生成抓取工作列表、抓取网页文件、更新CrawlDb、倒排Links、建立索引、复制索引文件、合并索引文件。
发表评论
-
网页去重
2011-01-11 09:34 2068搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一 ... -
nutch 抓取动态网页设置
2010-12-04 22:48 3787nutch过滤规则crawl-urlfilter.t ... -
nutch 中的MapReduce详细分析
2010-12-02 22:48 1813作者:马士华 发表于: ... -
提高Nutch局域网抓取的速度
2010-11-30 19:36 1294提高Nutch局域网抓取的速度 如果想要提高N ... -
nutch 过滤掉不正确的URL实现方法:
2010-11-29 22:39 1964nutch 1.0 读源码,过滤掉不正确的URL实现方法: ... -
nutch中Nutch-defaul.xml相关配置
2010-11-28 22:27 1861Nutch-default.XML相关 ... -
nutch的核心流程分析
2010-11-26 00:09 2232Crawl类的时序图。 流程如下 ... -
Nutch中文分词总结
2010-11-18 19:06 25321 中文分词介绍 中文分词是在做检索类系统时需要重点考虑 ... -
nutch累积式抓取
2010-11-13 22:48 2316最近在网上查了好多关于nutch增量式抓取的脚本,但是我 ... -
提高Nutch局域网抓取的速度
2010-11-13 22:25 1574如果想要提高Nutch局域网抓取的速度,大家第一个想到 ... -
nutch如何才能抓取到动态的url
2010-11-13 08:09 3035nutch如何才能抓取到动 ... -
网络爬虫调研报告
2010-11-09 19:26 1810网络爬虫调研报 ... -
配置完成nutch容易出现的错误
2010-11-09 09:14 2395配置完成nutch容易出现的错误 1.1.2 ... -
Nutch1.0的配置与运行
2010-11-09 09:10 947Nutch1.0的配置与运行 ... -
Nutch1.0的配置与运行
2010-11-08 11:17 1023Nutch1.0的配置与运行 ... -
Nutch的资料
2010-11-08 10:59 1427Nutch的资料 http://issues. ... -
nutch的基本工作流程理解
2010-11-08 10:57 1434(一): Nutch 的工作流程: ...
相关推荐
Eclipse 编译 Nutch-0.9
参考文章 http://blog.csdn.net/handyhuang/article/details/7421553
在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 本资源官网上下的源代码。 nutch-2.1 适用于windows系统
1.6 Tomcat中启动搜索站台 1. 将Nutch.war包考到Tomcat的webapps下。 部署后,进入站台目录下的...<value>E:\nutch-0.9\crawl</value> 2. 启动Tomcat,输入http://127.0.0.1:8080/nutch-0.9 3. 可以进行查询了。
apache-nutch-2.3.1-src.tar.gz
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
nutch-web-api 它是什么 nutch-web-api是 Apache Nutch 爬虫应用程序的 RESTFul API 实现。 这个项目完全是用 node.js 和 coffeescript 编写的,目的是简化使用并提高灵活性。 REST API 不是 apache nutch 应用程序...
nutch配置nutch-default.xml
nutch 0.9分页代码(粘贴可用)
nutch-windows-脚本 在 Windows 上运行 Nutch 2.1 的简单脚本
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch目前最新的版本为version1.4。这个为nutch的最新版 1.4。
apache-nutch-1.3 的源码包,需要的可以看下
Eclipse 中编译 Nutch-1.0 运行源代码
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速...Nutch的开放源代码方便任何人去查看Nutch排序算法的工作流程。因此Nutch就可以更好的发展,为那些爱好搜索引擎的人们提供了一个平台。
cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫入库url文件目录; crawl为爬虫输出目录; false本应为solr索引url参数,此处设置为false不做solr索引处理; 1为爬虫执行回数 ...
nutch 0.9 版代码包,包含src源代码,war可直接部署到tomcat中的war包,以及爬取网页的可执行文件,nutch crawl文件。
运行命令bin/crawl urls/ CrawlData/ N , 用作抓取的种子,其中N是抓取的轮数。 您可以尝试通过运行bin/nutch parsechecker http://mrs.org/home/来抓取单个页面。 运行爬网或使用parsechecker ,日志将在logs/...
#Politeness配置:为了处理礼貌,已将属性添加到文件nutch-site.xml中。 我们将坚果机器人(http.agent.name)标记为CS572 RASNA,代理说明(http.agent.description)设置为一个字符串,表示我们正在作为分配的一...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码