今天在群里问别人怎么提取文本,也没有具体告诉我用什么,只是说用htmlParser就可提取,查了查API,发现有个类很不错,两句话搞定哈。
import org.htmlparser.Parser;
import org.htmlparser.visitors.TextExtractingVisitor;
public class Test {
public static void main(String[] args) throws Exception {
String sss = "<div class='title'>商品详细说明:</div><p style='word-break: break-all'>ESTEE LAUDER Perfectly Clean Splash Away Foaming Cleanser<br />为中性/混合性肌肤度身订制的清洁产品。 <br />";
Parser parser = new Parser(sss);
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
System.out.println(visitor.getExtractedText());
}
}
如果解析出现问题,可以在文件之间加入div标签。如:<div>+sss+</div>
根据测试,此方式必须得有div标签才不会报错,可以先添加然后解析的时候自动就没了。
大家还有其它方式解析,可以一起讨论:
具体可参考:www.gegeyigui.com 就有相关应用。
分享到:
相关推荐
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
htmlparser(HTML页面解析)例子
htmlparser是一款小而强大的解析Html 的第三方工具包,内含jar包和源文件包(两个),htmlparser1.6.jar,htmlparser1.6_src.jar,非常有用的
Html解析助手htmlparser.jar。Html解析助手htmlparser.jar
htmlparser解析API,希望对解析代码的伙伴们有帮助
ET解析器 将字符串解析为AST。
htmlparser解析html,获得需要的字段
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
NULL 博文链接:https://sunfish.iteye.com/blog/1317467
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
HTML文档解析器 HTMLParser
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不...
用htmlparser解析html的所有jar包,非常全!
基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...
使用HTMLParser解析网页,找出文章后下载保存
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不夸张地说,htmlparser就是目前最好...
HTMLParser提取网页内容,提取网页正文及标题等内容
标题已经哼明白了,这里下载下来作为library引入即可。 这里是jar下载:http://sourceforge.net/projects/htmlparser/ (ps:不过导入jar前,要重新编译jar,要不在Android工程了不可用)
如果要对HTML进行解析,提取HTML的数据或者修改HTML数据,HtmlParser是一个不错的选择,而且非常的简单好用
android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...