// 应该知道,Nutch查找文件系统是基于Linux系统的机制的,所以提供启动的命令与Linux的Shell命令很相似。
public static void main(String args[]) throws Exception { if (args.length < 1) { // 检查命令行参数是否合法,如果小于1个参数,则给出提示。 System.out.println ("Usage: Crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN N]"); return; }
Configuration conf = NutchConfiguration.create(); // 使用静态类NutchConfiguration创建一个org.apache.hadoop.conf.Configuration实例,可以在Hadoop的源代码中查看到该类的定义(读取hadoop-site.xml配置文件) conf.addDefaultResource("crawl-tool.xml"); // 读取并设置抓取工具的配置文件,可以在nutch-0.9\conf目录下找到crawl-tool.xml文件 JobConf job = new NutchJob(conf); // 抓取任务配置实例的创建
Path rootUrlDir = null; // 初始URLs文件所在的目录,使用Hadoop的org.apache.hadoop.fs.Path类创建目录 Path dir = new Path("crawl-" + getDate()); // 设置默认抓取到网页的存放目录。如果命令行中没有指定-dir 的值就会使用默认的值:crawl-时间。 int threads = job.getInt("fetcher.threads.fetch", 10); // 设置默认抓取工作启动线程数目,默认值为10。 int depth = 5; // 默认抓取工作遍历深度,默认值为5。 int topN = Integer.MAX_VALUE; // 抓取任务抓取网页的数量,默认为最大值。
for (int i = 0; i < args.length; i++) { // 根据读取的命令行,设置抓取工作配置信息。 if ("-dir".equals(args[i])) { dir = new Path(args[i+1]); i++; } else if ("-threads".equals(args[i])) { threads = Integer.parseInt(args[i+1]); i++; } else if ("-depth".equals(args[i])) { depth = Integer.parseInt(args[i+1]); i++; } else if ("-topN".equals(args[i])) { topN = Integer.parseInt(args[i+1]); i++; } else if (args[i] != null) { rootUrlDir = new Path(args[i]); } }
FileSystem fs = FileSystem.get(job); // 根据抓取工作配置JobConf创建一个用来存放抓取到的网页的目录。 if (fs.exists(dir)) { throw new RuntimeException(dir + " already exists."); // 如果该目录已经存在,则发生运行时异常。 }
if (LOG.isInfoEnabled()) { // 登录日志信息 LOG.info("crawl started in: " + dir); LOG.info("rootUrlDir = " + rootUrlDir); LOG.info("threads = " + threads); LOG.info("depth = " + depth); if (topN != Integer.MAX_VALUE) LOG.info("topN = " + topN); }
// 在目录dir下面创建下面5个目录,用来存放,抓取工作过程中不同操作生成的文件或者目录。 Path crawlDb = new Path(dir + "/crawldb"); Path linkDb = new Path(dir + "/linkdb"); Path segments = new Path(dir + "/segments"); Path indexes = new Path(dir + "/indexes"); Path index = new Path(dir + "/index");
Path tmpDir = job.getLocalPath("crawl"+Path.SEPARATOR+getDate()); Injector injector = new Injector(conf); // 根据Configuration conf创建一个Injector实例 Generator generator = new Generator(conf); // 根据Configuration conf创建一个Generator实例 Fetcher fetcher = new Fetcher(conf); // 根据Configuration conf创建一个Fetcher实例 ParseSegment parseSegment = new ParseSegment(conf); // 根据Configuration conf创建一个ParseSegment实例 CrawlDb crawlDbTool = new CrawlDb(conf); // 根据Configuration conf创建一个CrawlDb实例 LinkDb linkDbTool = new LinkDb(conf); // 根据Configuration conf创建一个LinkDb实例 Indexer indexer = new Indexer(conf); // 根据Configuration conf创建一个Indexer实例 DeleteDuplicates dedup = new DeleteDuplicates(conf); // 根据Configuration conf创建一个DeleteDuplicates实例 IndexMerger merger = new IndexMerger(conf); // 根据Configuration conf创建一个IndexMerger实例 // 初始化crawlDb injector.inject(crawlDb, rootUrlDir); // 从rootUrlDir目录中读取初始化URLs,将URLs注入到CrawlDb实体中去 int i; for (i = 0; i < depth; i++) { // 在segment文件中生成抓取工作列表 Path segment = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis(), false, false); if (segment == null) { LOG.info("Stopping at depth=" + i + " - no more URLs to fetch."); break; } fetcher.fetch(segment, threads); // 根据配置的线程数开始抓取网页文件 if (!Fetcher.isParsing(job)) { parseSegment.parse(segment); // 解析网页文件 } crawlDbTool.update(crawlDb, new Path[]{segment}, true, true); // 更新CrawlDb } if (i > 0) { linkDbTool.invert(linkDb, segments, true, true, false); // invert links
indexer.index(indexes, crawlDb, linkDb, fs.listPaths(segments)); // 索引过程 dedup.dedup(new Path[] { indexes }); // 复制索引文件 merger.merge(fs.listPaths(indexes), index, tmpDir); // 将索引目录index中的索引文件合并后写入到indexes目录中 } else { LOG.warn("No URLs to fetch - check your seed list and URL filters."); } if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); } }
|
相关推荐
Eclipse 编译 Nutch-0.9
参考文章 http://blog.csdn.net/handyhuang/article/details/7421553
在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 本资源官网上下的源代码。 nutch-2.1 适用于windows系统
1.6 Tomcat中启动搜索站台 1. 将Nutch.war包考到Tomcat的webapps下。 部署后,进入站台目录下的...<value>E:\nutch-0.9\crawl</value> 2. 启动Tomcat,输入http://127.0.0.1:8080/nutch-0.9 3. 可以进行查询了。
apache-nutch-2.3.1-src.tar.gz
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
nutch-web-api 它是什么 nutch-web-api是 Apache Nutch 爬虫应用程序的 RESTFul API 实现。 这个项目完全是用 node.js 和 coffeescript 编写的,目的是简化使用并提高灵活性。 REST API 不是 apache nutch 应用程序...
nutch配置nutch-default.xml
nutch 0.9分页代码(粘贴可用)
nutch-windows-脚本 在 Windows 上运行 Nutch 2.1 的简单脚本
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch目前最新的版本为version1.4。这个为nutch的最新版 1.4。
apache-nutch-1.3 的源码包,需要的可以看下
Eclipse 中编译 Nutch-1.0 运行源代码
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速...Nutch的开放源代码方便任何人去查看Nutch排序算法的工作流程。因此Nutch就可以更好的发展,为那些爱好搜索引擎的人们提供了一个平台。
cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫入库url文件目录; crawl为爬虫输出目录; false本应为solr索引url参数,此处设置为false不做solr索引处理; 1为爬虫执行回数 ...
nutch 0.9 版代码包,包含src源代码,war可直接部署到tomcat中的war包,以及爬取网页的可执行文件,nutch crawl文件。
运行命令bin/crawl urls/ CrawlData/ N , 用作抓取的种子,其中N是抓取的轮数。 您可以尝试通过运行bin/nutch parsechecker http://mrs.org/home/来抓取单个页面。 运行爬网或使用parsechecker ,日志将在logs/...
#Politeness配置:为了处理礼貌,已将属性添加到文件nutch-site.xml中。 我们将坚果机器人(http.agent.name)标记为CS572 RASNA,代理说明(http.agent.description)设置为一个字符串,表示我们正在作为分配的一...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码