一个有用的方法, bak一下
public String html2Text(String inputString) {
String htmlStr = inputString;
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>";
String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>";
String regEx_html = "<[^>]+>";
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll("");
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll("");
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll("");
textStr = htmlStr;
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr.trim();
}
分享到:
相关推荐
【HTML转TXT】html2text-1.0-2009-6-2【HTML转TXT】html2text-1.0-2009-6-2
html2text 是一个 Python 包可以将 HTML 转成 Markdown 格式。 示例代码: import html2text h = html2text.HTML2Text() h.ignore_links = True print h.handle("<p>Hello, ...
资源分类:Python库 所属语言:Python 资源全名:html2text-3.200.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
资源分类:Python库 所属语言:Python 资源全名:html2text_no_md_escapes-2020.8.8-py2-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
html2text:将 HTML 转换为 Markdown 格式文本
html2text 将HTML转换为带有markdown风味的文本 介绍 确保所有人都能阅读您的电子邮件! 将HTML转换为原始文本,对于发送带有格式相当好的TXT文档作为后备格式的精美HTML电子邮件很有用(例如,对于那些不允许HTML...
html2text 用 Go 编写的 html 到文本转换器。 这个库将从源代码中剥离 html 标签并对文本执行清理。 这包括正确添加新行和从链接附加到 url 之类的事情。 安装 去 github.com/sgoertzen/html2text 用法 import " ...
python使用html2text库实现从HTML转markdown的方法详解.docx
如果PyPi上搜html2text的话,找到的是另外一个库:Alir3z4/html2text。这个库是从aaronsw/html2text fork过来,并在此基础上对功能进行了扩展。因此是直接用pip安装的,因此本文主要来讲讲这个库。 首先,进行安装:...
html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器html5ever,使用DOM生成html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器...
html2text html2text是一个Python脚本,可将HTML页面转换为清晰易读的纯ASCII文本。 更好的是,ASCII也恰好是有效的Markdown(文本到HTML格式)。 用法: html2text [filename [encoding]] 选项 描述 --version ...
计算机软件-编程源码-html2text.zip
开源项目-jaytaylor-html2text.zip,我的Golang库,用于将HTML转换为文本
html2text html2text是一个非常简单的脚本,它使用DOM方法将HTML转换为类似于浏览器将呈现的格式-非常适合需要快速文本表示的地方。 例如: < html > < title > Ignored Title </ title > < ...
将HTML转换为TXT文件的程序
html2text-lib 用于将 HTML 转换为纯文本的 C++ 库。 起源 该库基于应用程序 html2text: ://www.aaronsw.com/2002/html2text/ ##去做 创建一些示例和文档。
html2text html2text是一个非常简单的gem,它使用DOM方法将HTML转换为类似于浏览器将呈现的格式-非常适合需要快速文本表示的地方。 例如: < html > < title > Ignored Title </ title > < ...
可以称为 odt2text,类似于 aaronsw 的 html2text。 如果有人感兴趣,请告诉我,我可能会再做一些工作! 它使用(几乎完全未记录的)odfpy 包从 odt 文档中读取。 浏览文档中的所有文本并解释以下格式: 大胆的 ...