`
starbhhc
  • 浏览: 632737 次
  • 性别: Icon_minigender_2
  • 来自: 深圳
社区版块
存档分类
最新评论

java 读取html过滤标签

    博客分类:
  • java
 
阅读更多

public static void main(String[] args) {

String str="<p>  qweqwe你好啊。<a>我我我我qweqwe</a></p>";

System.out.println(stripHtml(str).trim());

                System.out.println(delHTMLTag(str).trim());

 

}

 

使用正则表达式删除HTML标签。 

import java.util.regex.Matcher; 

import java.util.regex.Pattern; 

 

public class HTMLSpirit{ 

    public static String delHTMLTag(String htmlStr){ 

        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 

        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 

        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 

         

        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); 

        Matcher m_script=p_script.matcher(htmlStr); 

        htmlStr=m_script.replaceAll(""); //过滤script标签 

         

        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); 

        Matcher m_style=p_style.matcher(htmlStr); 

        htmlStr=m_style.replaceAll(""); //过滤style标签 

         

        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); 

        Matcher m_html=p_html.matcher(htmlStr); 

        htmlStr=m_html.replaceAll(""); //过滤html标签 

 

        return htmlStr.trim(); //返回文本字符串 

    } 

 

}

 

 

Java中去掉网页HTML标记的方法 
Java里面去掉网页里的HTML标记的方法: 

/** 
* 去掉字符串里面的html代码。<br> 
* 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。 

* @param content 
* 内容 
* @return 去掉后的内容 
*/ 

 

 

public static String stripHtml(String content) { 

// <p>段落替换为换行 

content = content.replaceAll("<p .*?>", "\r\n"); 

// <br><br/>替换为换行 

content = content.replaceAll("<br\\s*/?>", "\r\n"); 

// 去掉其它的<>之间的东西 

content = content.replaceAll("\\<.*?>", ""); 

// 还原HTML 

// content = HTMLDecoder.decode(content); 

return content; 

 

}

  • T.rar (896 Bytes)
  • 下载次数: 0
分享到:
评论

相关推荐

    JAVA上百实例源码以及开源项目

    Java存储与读取对象 1个目标文件 如题 Java调色板面板源代码 1个目标文件 摘要:Java源码,窗体界面,调色板  使用Java语言编写的一款用于反映颜色变化的面板,也就是大家熟悉的颜色调色板演示程序。原理是初始化颜色...

    JAVA上百实例源码以及开源项目源代码

    Java存储与读取对象 1个目标文件 如题 Java调色板面板源代码 1个目标文件 摘要:Java源码,窗体界面,调色板  使用Java语言编写的一款用于反映颜色变化的面板,也就是大家熟悉的颜色调色板演示程序。原理是初始化颜色...

    java开源包11

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包6

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包9

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包4

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包101

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包5

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包8

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包10

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包3

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包1

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java web 视频、电子书、源码(李兴华老师出版)

    16.4.2、&lt;html:text&gt;与&lt;html:password&gt;标签 16.4.3、&lt;html:radio&gt;标签 16.4.5、&lt;html:textarea&gt;标签 16.4.6、&lt;html:hidden&gt;标签 16.4.7、按钮标签 16.4.8、实例:编写基本表单 16.4.9、复选框标签 ...

    李兴华Java Web开发实战经典.pdf (高清版) Part1

    MLDN 李兴华 Java Web 开发实战经典.pdf (高清版) 全书分为两部分,需 要全部下载下载一起解压,此部分为第一部分 带有书签,清华大学出版社 第1章 JAVA WEB开发简介 1.1、WEB发展历程 1.2、企业开发架构 ...

    MLDN+李兴华+Java+Web开发实战经典.part3.rar )

    MLDN 李兴华 Java Web 开发实战经典.pdf (高清版) 带有书签,清华大学出版社 第1章 JAVA WEB开发简介 1.1、WEB发展历程 1.2、企业开发架构 1.3、JAVA EE架构 1.4、JAVA EE核心设计模式 1.5、Struts开发...

    李兴华Java Web开发实战经典(高清版) Part2

    MLDN 李兴华 Java Web 开发实战经典.pdf (高清版) 全书分为两部分,需 要全部下载下载一起解压,此部分为第二部分 带有书签,清华大学出版社 第1章 JAVA WEB开发简介 1.1、WEB发展历程 1.2、企业开发架构 ...

    JAVA语言程序设计【高清版】.pdf

    185 9.3.2 Applet参数的读取 186 9.3.3 Applet与URL 187 9.4 在Applet中的多媒体处理 188 9.4.1 在Applet中显示图像 188 9.4.2 在Applet中播放声音 189 9.5 Applet的事件处理 189 习题 191 第10章 ...

    李兴华 Java Web 开发实战经典_带源码_高清pdf 带书签 上

    第1章 JAVA WEB开发简介 1.1、WEB发展历程 1.2、企业开发架构 1.3、JAVA EE架构 1.4、JAVA EE核心设计模式 1.5、Struts开发框架 1.6、本章摘要 1.7、开发实战讲解 第2章 HTML、JavaScript简介 2.1、服务器...

Global site tag (gtag.js) - Google Analytics