public static String Html2Text(String inputString) {
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
// }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
// }
String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签
textStr = htmlStr;
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;// 返回文本字符串
}
分享到:
相关推荐
直接在ASP脚本中用, 1、过滤图片或HTML 2、过滤HTML所有 3、Asp过滤Html代码方法一 4、Asp过滤Html代码方法二 5、Asp过滤Html代码方法三
通过正则表达式过滤到html中的标签,将内容保存下来
)>/isU", //过滤 等可能引入恶意内容或恶意改变显示布局的代码,如果不需要插入flash等,还可以加入的过滤 "/(<[^>]*)on[a-zA-Z]+\s*=([^>]*>)/isU", //过滤javascript的on事件 ); $tarr = array( " ", ...
HTML代码过滤技术
Dim RegEx Set RegEx = New RegExp ...asp过滤实现过滤所有的HTML代码,然后就是显示中文了,绝对的,找了好长时间呀,(原理就是找到这两个标签里的所标签全部删除,汗,啰嗦。) <%=removehtml(rs('game'))%>
用于过滤HTML代码的工具,小巧,而且听实用的
Asp.net中如何过滤html,js,css代码
包括常用过滤html标签、截取字符串及获得本页地址三大函数。 过滤html标签函数:如果只是把类似的标记统统去掉,并不需要考虑别的。 截取字符串函数:截取字符串并限制字符串长度,多于给定的长度 获得本页地址:...
App_Code生成静态过滤html代码操作sql
Sql过滤html不像正则表达式那么方便,这个代码是模拟替换。
除去文本中HTML代码的方法,并且使用的是C#语言
最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新 元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是费存储空间。当...
asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txtasp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt
对代码工程中的(如java,jsp,c++,xml,html,js,properties,py等类型)文件注释进行过滤删除,以减少代码的占用空间和打包后的大小等。
wap代码 html过滤器(用java写的)
本文通过实例代码给大家介绍了php下过滤HTML代码的函数,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧
html5响应式触屏滑动商品筛选过滤代码
java过滤html,css,js标签工具类(UnHtmlScript),抓取页面内容去除标签样式信息
用javascript写的过滤XSS代码,危险代码被转义而不是被删除. 根目录下js-xss-master/dist/test.html是例子.
private string FilterHTML(string contents) { string strTmp =string.Empty; strTmp = System.Text.RegularExpressions.Regex.Replace(contents, "<(.[^>]*)>", ""); return strTmp; }