nutch 1.0 读源码,过滤掉不正确的URL实现方法:
对URL不规则或想过滤掉的地方,可以通过修改源码来实现,省去写配置文件,因为配置文件并不是太明朗,有些配置了也不一定成功。所以我考虑在源码上作操作。更好地扩展。当然你也可以去写插件,这儿就不说了,因为我也没有去那样实现,我只是对插件进行了扩展采集自己想要的内容。
过滤URL部分:
类:CrawlDbFilter
// 对url过滤的处理方法。可以实现一个自己的过滤器对URL进行重新定义成自己喜欢的URL
public void map(Text key, CrawlDatum value,
OutputCollector<Text, CrawlDatum> output,
Reporter reporter) throws IOException {
String url = key.toString();
if (urlNormalizers) {
try {
url = normalizers.normalize(url, scope); // normalize the url
} catch (Exception e) {
LOG.warn("Skipping " + url + ":" + e);
url = null;
}
}
if (url != null && urlFiltering) {
try {
//此处为过滤的URL规则
url = filters.filter(url); // filter the url
} catch (Exception e) {
LOG.warn("Skipping " + url + ":" + e);
url = null;
}
}
//在此加入自己的过滤器:如定义MyUrlFilter
//即可以如此判断:
// if(url != null){
// url = MyUrlFilter.filter(url);//处理掉不要的url
// }
//如果两次过滤都符合要求规则,则为有效URL
if (url != null) { // if it passes
newKey.set(url); // collect it
output.collect(newKey, value);
}
}
更多交流:
垂直搜索QQ:群:55388905
最近自己的小项目:http://www.lsoba.com
分享到:
相关推荐
Nutch1.0的API,不过注意没有搜索功能
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Eclipse 中编译 Nutch-1.0 运行源代码
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
nutch_src 源码 tar—zip格式
外网不能访问,故上传,一方面自己备份,一方面也方便大家不能下载的痛苦,只有nutch的源码,没有依赖包,如果需要依赖包,请自行下载
nutch-1.0-dev.jar nutch devlope
Lucene nutch 搜索引擎 开发 实例 源码 里面包含了Lucene的使用源码 以及nutch使用的源码 还有spider的使用源码 例子的注释比较详细~适合初学者
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码
lucene+nutch搜索引擎开发一书源码第一部分,因为源码太大,所以分两部分。
Nutch-1.0分布式安装手册.rar,完整的
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
nutch-1.3源码,java版本,其他请参看手册。