最新文章列表

Hadoop搭建-单机模式

临近年关,不是太忙。就在闲暇时间看了下hadoop..欢迎各位大牛拍砖. 单机模式 1、 jdk安装(jdk6.0) a) 下载地址:http://www.oracle.com/technetwork/java/javase/dwnloads/jdk-6u30-download-1377139.html b) jdk安装目录/opt/jdk1.6.0_30 2、 hadoop安装(hadoop1.0 ...
511930751 评论(0) 有2127人浏览 2012-01-11 10:19

Nutch命令大全

Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl <urlDir> [ ...
ljl_xyf 评论(0) 有1384人浏览 2011-12-28 15:12

Nutch1.2搜索引擎使用详解

Nutch作为一款刚刚诞生的开源Web搜索引擎,提供了除商业搜索引擎外的一种新的选择。个人、企业都可通过Nutch来构建适合于自身需要的搜索引擎平台, ...
ljl_xyf 评论(0) 有1614人浏览 2011-12-27 17:12

Stopping at depth=1 - no more URLs to fetch.

Hadoop集群时间不统一导致Nutch无法正常运行  抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况 转自:http://liuskysun.blog.163.com/blog/sta ...
黎明lm 评论(0) 有1835人浏览 2011-12-23 12:33

nutch 1.3 评分机制 opic 详解

Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC -------------------------------------- 1. Nutch 1.3 的页面评分机制    Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但 ...
黎明lm 评论(0) 有1385人浏览 2011-12-22 09:17

nutch插件编写

说说NUTCH插件 AntluceneXMLApacheSpring 每一个基本的非范围搜索都可以由NUTCH来实现,但当我们希望它可以实现范围搜索的时候,我们就需要自己实现插件 ...
黎明lm 评论(0) 有1183人浏览 2011-12-12 17:25

nutch环境配置在windows系统上(借助Cygwin)

nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。 一、安装jdk Jdk版本为1.6, 下载地址: http://www.sun.com/download/ 安装路径 :C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该 ...
ljl_xyf 评论(0) 有1737人浏览 2011-11-16 11:09

Heritrix 和 Nutch 比较与分析(java开源网络爬虫)

Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫: 能够以更高的带宽去站点爬。 主题爬虫: 集中于被选择的问题。 持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。 实验 ...
ljl_xyf 评论(1) 有7392人浏览 2011-11-15 11:01

Nutch: 读取 nutch抓取内容

package org.apache.nutch; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apac ...
黎明lm 评论(0) 有1312人浏览 2011-09-02 13:50

Apache Web-framework 项目总揽-2

Apache Nutch这个现在也很火,简单的说就是一个搜索引擎。常常会弄不清楚为什么会有Lucence有Solr还有Nutch,他们大概的关系是:Lucence : 一堆indexing和搜索 ...
princeicelk 评论(0) 有1073人浏览 2011-08-22 22:56

nutch1.3 +hadoop 分布式部署(亲测)

nutch1.3 +hadoop 分布式部署(亲测) 1.确保hadoop正常启动 2.下载nutch1.3 安装包 解压到指定路径 3.抓取    nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf       runtime/local/conf 为 local(本地抓取的配置文件所用)    NUTCH_HOME/co ...
黎明lm 评论(8) 有4646人浏览 2011-08-22 16:46

nutch 1.2 hadoop 错误解决Stopping at depth=0 - no more URLs t==

        Stopping at depth=0 - no more URLs to fetch   看了好多版本的lnutch-1.2/conf/crawl-urlfilter.txt修改 从国内的:     urls/url.txt 或# accept hosts in MY.DOM ...
fei33423 评论(0) 有2573人浏览 2011-07-30 14:13

nutch初体验

注意:用nutch还得添加一个环境变量指向java目录:NUTCH_JAVA_HOME=$JAVA_HOME否则报:JAVA_HOME is not set   1.nutch目录下新建url.txt写入网址如:http://www.163.com   2.nutch/conf下的crawl-urlfilter.txt # accept hosts in MY.DOMAIN.NAME ...
edwin492 评论(0) 有1051人浏览 2011-07-28 20:25

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics