import java.util.HashSet; import java.util.Set; import javax.swing.text.html.HTMLEditorKit; import org.apache.commons.lang.StringEscapeUtils; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.util.NodeList; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import com.richart.Constants; import com.richart.util.StringUtils; public class HtmlToText extends HTMLEditorKit.ParserCallback { private static Logger logger = LoggerFactory.getLogger(HtmlToText.class); /** * 提取纯文本 * * @param inputHtml * @return * @throws Exception */ public static String extractText(String inputHtml) { StringBuffer text = new StringBuffer(); Parser parser = null; NodeList nodes = null; Set<String> set = new HashSet<String>(); try { String htmlStr = new String(inputHtml.getBytes(Constants.CODING_UTF_8), Constants.CODING_UTF_8); htmlStr = StringEscapeUtils.unescapeHtml(inputHtml); parser = Parser.createParser(new String(htmlStr), Constants.CODING_UTF_8); // 遍历所有的节点 nodes = parser.extractAllNodesThatMatch(new NodeFilter() { private static final long serialVersionUID = 1L; public boolean accept(Node node) { return true; } }); for (int i = 0; i < nodes.size(); i++) { Node nodet = nodes.elementAt(i); String noteStr = new String(nodet.toPlainTextString().getBytes(Constants.CODING_UTF_8)).trim(); if (StringUtils.isValidateString(noteStr) && set.add(noteStr)) { text.append(new String(noteStr)).append("<br />"); } } } catch (Exception e) { logger.error(e.getMessage(), e); } return text.toString().replaceAll("[[\r]+[\n]+[\t]+]+", "<br />"); }
未处理的问题:特殊字符乱码问题,内容重复
相关推荐
lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache.commons.lang....
本文实例讲述了C#实现将HTML转换成纯文本的方法。分享给大家供大家参考。具体如下: 使用方法: 代码如下:HtmlToText convert = new HtmlToText(); textBox2.Text = convert.Convert(textBox1.Text); C#代码如下: ...
使用TWebBrowser将Html文件批量转换成纯文本文件的delphi源代码
AutoHtml一组过滤器集合用于将纯文本转换成HTML代码
asp中去掉所有HTML标记得到纯文本代码,并截取字符串。适用于做企业网站时,首页显示公司简介的一部分内容用...
提供微信小程序中因为需要展示html富文本文件而出现的问题
主要介绍了在Java中轻松将HTML格式文本转换为纯文本的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
html2text-lib 用于将 HTML 转换为纯文本的 C++ 库。 起源 该库基于应用程序 html2text: ://www.aaronsw.com/2002/html2text/ ##去做 创建一些示例和文档。
auto_html, 将纯文本转换为HTML代码的过滤器集合 AutoHtmlAutoHtml是将纯文本转换为HTML代码的过滤器集合。安装将此行添加到你的应用程序的Gemfile中:gem 'auto_html'然后执行:$ bundle或者将它的自己安装为:
html2text是一个简单的golang包,用于将HTML呈现为纯文本。 仍然有很多改进,但是FWIW可以很好地满足我的[HTML]基本HTML-2文本需求。 它需要go 1.x或更高版本;) 下载包 go get jaytaylor.com/html2text 用法示例...
docconv, 将 PDF,DOC,DOCX,XML,HTML,RTF等转换为纯文本 docconv 将( 参见可选的依赖项 below ) 。DOC 。DOCX 。XML 。HTML 。RTF 。ODT 。页面文档和图像转换为纯文本的转到包装库。返回用户的英镑说明: 这里...
html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器html5ever,使用DOM生成html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器...
把html的脚本转换成纯文本,去掉html的样式。一大堆的<标记>标记>
500个库,可将HTML转换为纯文本。 这对于从HTML电子邮件生成纯文本替代很有用。 它不处理复杂的布局,但对于电子邮件来说却相当不错。 使用 。 选项: struct Options { uint wrap = 78 ; // wrap column ...
AutoHtml 是一组过滤器,可将纯文本转换为 HTML 代码。见现场演示。 安装 将此行添加到应用程序的 Gemfile: gem 'auto_html' 然后执行: $ bundle 或者自己安装: $ gem install auto_html 更多详情、使用方法...
主要介绍了PHP将HTML转换成文本的实现代码,需要的朋友可以参考下
可读性2 将HTML转换为纯文本。 实际观看 (早期访问) 安装 yarn add readability2
将博客文章转换为干净的Markdown文本文件。 例 例如,本文: 转换为以下文本文件: 用法 $ clean-mark“ ” 文章将使用URL路径名自动命名。 在上述情况下,名称将为fancy-article.md 。 可以指定文件类型: $ ...