转自:http://javashow.blog.163.com/blog/static/12109964200491452690/
最先是看见SourceForge上下载的包,真是有点大的吓人,一个小小的html parser, 居然有5M。下载回来,展开刨去文档等等杂乱的部分,source也还是不小的。用ant build过后,生成两个jar,htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析,所以只关心parser。试了一下,似乎独立的htmlparser.jar就可以了,不需要lib目录里面那些依赖的库。类的结构是比较清晰,划分的比较细致。source目录中有几个sample,都比较简单,很容易看懂。和使用xml parser感觉差不多,也有Event driver的接口,扩充一下也很容易生成DOM Tree,容易上手。
Jericho
一个简单小型的html parser,程序包比较小,500K左右,build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面,Jericho没有提供类似SAX的接口,也不关注细部结构。对于Jericho核心概念是Segment,一个标记,一段内容,都是Segment,在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample,也都很简单,不过平时用惯了XML一套处理方法的人,会比较不习惯的,我想。源代码的质量一般,没有HTML Parser的好看。
NekoHTML
这是一个基于apache Xerces-j,依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西,就发毛,放弃。
Java HTML Parser
主页除了下载的连接,没有啥更多信息了,看着也比较让人发毛,没有试
TagSoup
主页上的download source链接断了,给作者发了信,很快有了答复,说修好了。编译出来的jar包30K,也算短小精悍。因为核心代码需要用模板生成,所以必须在有perl的环境中才能正常编译。没有文档,没有简单的Sample,看source,有些头晕,感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说,TagSoup的handler接口和SAX的handler非常相近,不过也没有明确的说,就是完全兼容的。
分享到:
相关推荐
首先,Python中的网络爬虫通常基于几个核心库,如BeautifulSoup、requests和Scrapy等。在这个案例中,我们关注的是`selenium`库。Selenium是一个用于Web应用程序测试的工具,但也可以用来模拟浏览器行为,这对于抓取...
系统主要由以下几个组件构成: 1. **问题解析器(Question Parser)**:这是OpenEphyra的第一个关键模块,它负责将用户输入的自然语言问题转化为结构化的查询表示。通常,这个问题解析器会使用如OpenNLP或Stanford ...
在XML文档中,上述几种语句的语法都是错误的。因为: 1.所有的标记都必须要有一个相应的结束标记; 2.所有的XML标记都必须合理嵌套; 3.所有XML标记都区分大小写; 4.所有标记的属性必须用""括起来; 所以上列...
2. **包头提取**:一旦接收到数据包,你需要提取出RTP头,这通常通过比较前几个字节的标志来完成。 3. **头解析**:根据RTP头结构,解析每个字段以获取序列号、时间戳和SSRC等信息。 4. **数据处理**:基于解析到的...
Apache POI 是一个广泛使用的Java库,用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。在处理大型Excel文件时,传统的HSSF和XSSF模型可能会遇到性能瓶颈,因为它们将整个工作簿加载到内存中。为了...
总结一下,Java通过SAX方式解析XML文件时,主要涉及以下几个步骤: 1. 从服务器下载XML文件,通常使用`java.net.URL`和`java.io.InputStream`。 2. 创建SAX解析器,通过`XMLReaderFactory.createXMLReader()`。 3. ...