`

jsoup 解析html

 
阅读更多

 

 

jsoup  技术手册: http://www.open-open.com/jsoup/

jsoup  source,doc,jar包下载:  http://jsoup.org  (官 网)

 

      最近做html内容抽取,使用的是HtmlParser,但当提取数学符号,上标和下标时,没有办法提取。最终通过自定义<sub>和<sup>两个tag类,并将其注入 factory中,得以解决。

 

      在搜索 html parser自定义tag时,无意中发现了jsoup,看了技术手册,使用比较简单,学习的成本相当低(如果对jquery有一定的应用),基本上没有门槛,建议以后在解析html时,尝试并尽量使用jsoup.

 

      介绍较好的博文有:

      http://hi.baidu.com/china8jie/blog/category/html%BD%E2%CE%F6

 

      http://wenku.baidu.com/view/64516bf8fab069dc50220144.html

 

      http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics