`
mr_lonely_hp
  • 浏览: 89932 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

问读nutch 1.2 解析html的插件 HtmlParser插件

阅读更多

分为以下几个部分:

1 解析成Dom 通过sax,

DocumentFragment root;

//把网页内容content转化byte
byte[] contentInOctets = content.getContent();

//SAX解析抽取外部信息
InputSource input = new InputSource(new ByteArrayInputStream(
contentInOctets));

//设置编码

input.setEncoding(encoding);

root = parse(input);

2 通过root解析出meta,title等。

3 //解析成功标记
ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);
if (metaTags.getRefresh()) {
status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);
status.setArgs(new String[] { metaTags.getRefreshHref().toString(),
Integer.toString(metaTags.getRefreshTime()) });
}
//解析ParseData
ParseData parseData = new ParseData(status, title, outlinks, content
.getMetadata(), metadata);

ParseResult parseResult = ParseResult.createParseResult(content
.getUrl(), new ParseImpl(text, parseData));

4 // 在解析时,运行过滤器
ParseResult filteredParse = this.htmlParseFilters.filter(content,
parseResult, metaTags, root);
if (metaTags.getNoCache()) { // not okay to cache
for (Map.Entry<org.apache.hadoop.io.Text, Parse> entry : filteredParse)
entry.getValue().getData().getParseMeta().set(
Nutch.CACHING_FORBIDDEN_KEY, cachingPolicy);
}

分享到:
评论

相关推荐

    Nutch 1.2源码阅读

    Nutch 1.2 学习笔记,讲的比较清楚的文档

    nutch1.2 java project

    配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。

    nutch1.2 java的project

    配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加

    nutch1.2源码

    nutch1.2源码,可与hadoop分布式布置,欢迎下载

    nutch1.2测试文档

    nutch1.2测试文档

    myeclipse8.5导入nutch1.2源码

    将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch部分网页乱码BUG修正

    nutch部分网页乱码BUG修正,有代码和详细修改说明

    Nutch_插件深入研究

    nutch插件,安装nutch插件,mysql与nutch

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    利用Nutch和IKanalyzer构造中文分词搜索引擎

    nutch的插件机制

    nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。 常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用protocol-...

    Nutch公开课从搜索引擎到网络爬虫

    课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...

    nutch-1.2.part07

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part05

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

Global site tag (gtag.js) - Google Analytics