`
leiwuluan
  • 浏览: 694152 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

HtmlCleaner Html文档解析器

    博客分类:
  • java
阅读更多

       HtmlCleaner 是一个开源的Java 语言的Html 文档解析器。HtmlCleaner 能够重新整理HTML文档的每个元素并生成结构良好 (Well-Formed )的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的 小,快速,灵活而且独立。HtmlCleaner 也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM 或者JDom 标准文档,或者通过各种方式(压缩,打印)连续输出XML

新版本的重要功能更新包括:

  1.HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。   

      2.提供基本HtmlCleaner DOMXPath 支持

  3.使用XML配置温江让创建定制tag 变得更加容易

  4.修复多个bug 以及API改进

 

 

爬虫爬下来的文件,用HtmlCleaner  解析,速度非常快,比正则查找,Dom快了很多。

 

 

分享到:
评论

相关推荐

    htmlcleaner html解析器

    htmlcleaner html解析器htmlcleaner html解析器

    htmlcleaner html解析器2.2版

    htmlcleaner html解析器2.2版 ,解析速度很快的,比htmlparser1使用还速度快

    HtmlCleanerv2.13Html文档解析器

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。...

    HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。 HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则...

    HTMLCleaner(HTML代码优化工具)V1.0官方英文免费版

    HTML优化工具(HTML Cleaner) V1.0免费版HTML Cleaner是一个方便和可靠的HTML优化工具,旨在从HTML文档中删除不必要的字符,如多余的空格,引号,可选结束标记,等等。

    网页解析工具HTMLCleaner

    能清晰方便的找出网页中元素的对应关系,可以单独去掉某个tag标签及向里面添加页面元素

    htmlcleaner-2.8.jar

    Java解析HTML利器 htmlcleaner2.8

    HtmlCleaner2.1API参考手册.chm

    HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。 我试过,这是java世界中最快、最好、最小、最强大的Html解析库。 可以解析为DOM对象,然后使用其他的xml分析器进行分析。

    HtmlCleaner使用说明文档

    HtmlCleaner使用说明文档, 全面,还有很多例子可以参考!有空多交流!

    HtmlCleaner2.6.1 API (英文) 及 JAR Library

    HtmlCleaner2.6.1 API (英文) 及 JAR Library API LINK: http://htmlcleaner.sourceforge.net/doc/index.html

    HTMLcleaner

    Java的HTML开源解析框架,可以用来提取Html文档里面的特定元素

    htmlcleaner-2.2

    HtmlCleaner是一个开源的Java语言的Html文档解析器。

    htmlcleaner-2.2.4.jar

    网络爬虫htmlcleaner的jar包

    htmlcleaner2_1.jar

    html解析工具,支持xpath,简单方便

    XpathDemo.zip

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。...

    网页爬虫demo 带htmlcleaner jar包

    一个最简单的htmlcleaner扒网页内容,demo中以58种的一个页面为例,xpath请通过chrome浏览器控制台选中需要的内容后右击选择复制xpath 不喜勿喷,资源免费下载

    htmlcleaner使用方法及xpath语法初探

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档

    htmlcleaner,活跃的.zip

    注意//htmlcleaner.sourceforge.net/从2.4版起的项目

    HtmlCleaner 用法

    NULL 博文链接:https://z-one.iteye.com/blog/1172948

    htmlcleaner

    HTML网页解析,非常好的jar包!方便开发。

Global site tag (gtag.js) - Google Analytics