`

HTML Parser 使用 例子

阅读更多
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

最近用Heritrix下载了大概1.5G 左右的网页,但是内容包含了很多HTML标签内容,打算今天搞下HTMLParser,写下简单使用实例。
(待续)
分享到:
评论
7 楼 longware 2010-12-14  
http://www.iteye.com/topic/828723
6 楼 ak121077313 2010-12-14  
<i>aaaaaaaaa</i>解析不到
5 楼 xinnn 2010-12-10  
试试jsoup吧,好吃又好玩
4 楼 gbfd2012 2010-12-09  
htmlparser可以结合nekohtml使用下。。htmlparser很小但感觉解析网页很easy啊,很好的开源工具。抓取网页heritrix,功能挺强大的。nutch也不错,省硬盘空间。
3 楼 lqixv 2010-12-09  
我也用 jsoup ,感觉不错!
2 楼 wlwolf 2010-12-09  
感觉新星jsoup不错
1 楼 flyingzl 2010-12-02  
恩。推荐看看jsoup,也不错的,类似于jQuery的查询方式。

相关推荐

Global site tag (gtag.js) - Google Analytics