本月博客排行
-
第1名
青否云后端云 -
第2名
e_e -
第3名
vipbooks - silverend
- lemonhandsome
- ajinn
- jveqi
- kingwell.leng
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
zw7534313 -
第3名
大家都说我很棒 - liyihz2008
- wy_19921005
- gengyun12
- hbxflihua
- e_e
- luxurioust
- dbagirl
- zysnba
- Alsmile
- robotmen
- gaozzsoft
- jywhltj
- cpongo1
- leslie26
- qepwqnp
- zhangdaiscott
- 解宜然
- cuityang
- sichunli_030
- gashero
- fantaxy025025
- ranbuijj
- gdpglc
- ssydxa219
- wallimn
- vipbooks
- 淡看人生
- hanbaohong
- jickcai
- javashop
- johnsmith9th
- appalese
- gaojingsong
- weiyides
- zhangyi0618
- java-007
- AVI
- laiyangdeli
- lyongq04
- xpenxpen
- liunancun
- 龙哥IT
- conkeyn
- nychen2000
- lyndon.lin
- panshunchang
- ouanui
最新文章列表
Stopping at depth=1 - no more URLs to fetch.
Hadoop集群时间不统一导致Nutch无法正常运行
抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况
转自:http://liuskysun.blog.163.com/blog/sta ...
nutch环境配置在windows系统上(借助Cygwin)
nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。
一、安装jdk
Jdk版本为1.6, 下载地址:
http://www.sun.com/download/
安装路径
:C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该 ...
Heritrix 和 Nutch 比较与分析(java开源网络爬虫)
Heritrix项目介绍
Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。
IA期望他们的crawler包含以下几种: 宽带爬虫:
能够以更高的带宽去站点爬。 主题爬虫:
集中于被选择的问题。
持续爬虫:
不仅仅爬更当前的网页还负责爬日后更新的网页。 实验 ...
Nutch: 读取 nutch抓取内容
package org.apache.nutch;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apac ...
Apache Web-framework 项目总揽-2
Apache Nutch这个现在也很火,简单的说就是一个搜索引擎。常常会弄不清楚为什么会有Lucence有Solr还有Nutch,他们大概的关系是:Lucence : 一堆indexing和搜索 ...