【转】几个open source的html parser的比较 -

chenlong_1988

浏览: 187806 次
性别:

最近访客更多访客>>

sr_www

eman

qq_33915826

zjy_369

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

【转】几个open source的html parser的比较

html nekohtml htmlparser

几个open source的html parser的比较

HTMLParser

最先是看见SourceForge上下载的包，真是有点大的吓人，一个小小的html parser, 居然有5M。下载回来，展开刨去文档等等杂乱的部分，source也还是不小的。用ant build过后，生成两个jar，htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析，所以只关心parser。试了一下，似乎独立的htmlparser.jar就可以了，不需要lib目录里面那些依赖的库。类的结构是比较清晰，划分的比较细致。source目录中有几个sample，都比较简单，很容易看懂。和使用xml parser感觉差不多，也有Event driver的接口，扩充一下也很容易生成DOM Tree，容易上手。

Jericho
一个简单小型的html parser，程序包比较小，500K左右，build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面，Jericho没有提供类似SAX的接口，也不关注细部结构。对于Jericho核心概念是Segment，一个标记，一段内容，都是Segment，在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample，也都很简单，不过平时用惯了XML一套处理方法的人，会比较不习惯的，我想。源代码的质量一般，没有HTML Parser的好看。

NekoHTML
这是一个基于apache Xerces-j，依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西，就发毛，放弃。

Java HTML Parser
主页除了下载的连接，没有啥更多信息了，看着也比较让人发毛，没有试

TagSoup
主页上的download source链接断了，给作者发了信，很快有了答复，说修好了。编译出来的jar包30K，也算短小精悍。因为核心代码需要用模板生成，所以必须在有perl的环境中才能正常编译。没有文档，没有简单的Sample，看source，有些头晕，感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说，TagSoup的handler接口和SAX的handler非常相近，不过也没有明确的说，就是完全兼容的。

分享到：

【转】HttpClient4.0&HtmlCleaner用法 | 【转】nekohtml+xpath范例，及注意事项

2012-11-16 11:05
浏览 1358
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转】几个open source的html parser的比较

几个open source的html parser的比较

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【转】几个open source的html parser的比较

几个open source的html parser的比较

评论

发表评论

相关推荐

最近访客更多访客>>