public static String Html2Text(String inputString) { if (inputString == null || "".equals(inputString)) return ""; String htmlStr = inputString; // 含html标签的字符串 String textStr = ""; java.util.regex.Pattern p_script; java.util.regex.Matcher m_script; java.util.regex.Pattern p_style; java.util.regex.Matcher m_style; java.util.regex.Pattern p_html; java.util.regex.Matcher m_html; java.util.regex.Pattern p_html1; java.util.regex.Matcher m_html1; try { String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[//s//S]*?<///script> // } String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[//s//S]*?<///style> // } String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 String regEx_html1 = "<[^>]+"; p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); // 过滤script标签 p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); // 过滤style标签 p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); // 过滤html标签 p_html1 = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE); m_html1 = p_html1.matcher(htmlStr); htmlStr = m_html1.replaceAll(""); // 过滤html标签 if (htmlStr != null) { htmlStr = htmlStr.replaceAll("\\s*|\t|\r|\n", ""); // 去除空格 htmlStr = htmlStr.replaceAll(" ", ""); } textStr = htmlStr; } catch (Exception e) { System.err.println("Html2Text: " + e.getMessage()); } return textStr;// 返回文本字符串 }
相关推荐
java过滤html,css,js标签工具类(UnHtmlScript),抓取页面内容去除标签样式信息
可以实现java过滤html标签、过滤指定标签等等
通过正则表达式过滤到html中的标签,将内容保存下来
NULL 博文链接:https://starbhhc.iteye.com/blog/2301355
使用正则表达式过虑html标签,效率高,准确
Java 中 过滤Html标签
java过滤非html后缀的文件,实现静态资源的安全拦截
今天小编就为大家分享一篇java过滤html标签获取纯文本信息的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
java过滤xss工具,xxsProtect. 根目录XSS/bin文件夹下有所有的jar包. 根目录XSS/com/start.java文件是例子. 过滤字符串中至少要有html显示标签.
简单的java文件过滤,改写特定字符串,ps:主要目的用于个人程序存储 个人笔记链接http://blog.sina.com.cn/s/blog_70356c200100x08p.html
本篇文章主要介绍了java正则表达式过滤html标签,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
Java正则表达式过滤html标签1[参考].pdf
主要用于java的代码工具,是一些工具类的集合,其中包括日期类型的转换,树形结构的过滤,html标签过滤等
主要介绍了JAVA过滤标签实现将html内容转换为文本的方法,涉及java针对HTML代码的正则替换相关操作技巧,需要的朋友可以参考下
wap代码 html过滤器(用java写的)
javajava图片特效处理程序,有几十种特效,包括水波纹、高斯模糊、浮雕效果等等,里面有html说明和一个测试程序,自己可以根据需要更改调试。
java代码-正则去除HTML代码中的A标签
java代码-正则去除HTML代码中的IMG标签
协同过滤-图书馆图书推荐系统(JAVA,JSP,SSM,MYSQL)(毕业论文12544字,共34页,程序代码,MySQL数据库) 【运行环境】 Eclipse, IDEA JDK1.8(JDK1.7) Tomcat8(Tomcat7) 【技术栈】 JAVA, JSP, SSM, JQUERY, MYSQL, HTML, ...