java html解析

liyixing1

浏览: 939595 次
性别:
来自: 江西上饶

最近访客更多访客>>

dawn22

iams13

zxjun8771

Miss_understand

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

p.jse

java html

dom解析是常用dom4j。
android中我们常用的是sax、pull。因为它们更省内存。

而html解析，则也有很多框架
1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

在线文档：http://www.osctools.net/apidocs/apidoc?api=jsoup-1.6.3；http://jsoup.org/

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}

2、htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。　据说htmlparser就是目前最好的html解析和分析的工具。　　无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

在线文档：[url] http://www.osctools.net/apidocs/apidoc?api=HTMLParser[/url]；http://htmlparser.sourceforge.net/project-info.html

示例代码：
Parser parser = new Parser ("http://www.dangdang.com");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());

当然，除了这两个还有NekoHTML、JTidy、HtmlCleaner等等。

分享到：

Spring 属性占位符配置器 PropertyPlaceho ... | 利用maven的filter和profile实现不同环境 ...

2015-07-31 17:31
浏览 1159
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java html解析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java html解析

评论

发表评论

相关推荐

java实现socks5

java Runtime.exec方法详解

Spring 定时任务，cron表达式，@Scheduled cron表达式

xulrunner

谈一谈自己对依赖、关联、聚合和组合之间区别的理解

java apache common unicode处理

jdbc ssh通道

swt 窗口 最大化最小化按钮设置等

java.lang.Process调用程序阻塞问题解决

slf4j门面模式实现原理

java - 比较时间-相差月数

log4jdbc

jdbc规范 jdbc1 jdbc2 jdbc3 jdbc4

反射，代理，动态java原理

Bean Validation 1.0（JSR-303）

JRE最小化原理

时间重叠的判断

java获取当前类的绝对路径

枚举 enum

EL表达式，ognl表达式对集合过滤和投影

最近访客更多访客>>

swt 窗口最大化最小化按钮设置等