`
weizhai12
  • 浏览: 145731 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

清除文本中的Html标签

 
阅读更多

以前做项目时,曾经遇到一个问题,就是要一段含html的文本中html的标签清除掉,并将清除后的文本显示在winform的Label上面。当时在网上搜寻了好久,终于找到了点资料,自己好好对照整理了下,现在分享给大家:

/// <summary>
/// 清除文本中Html的标签
/// </summary>
/// <param name="Content"></param>
/// <returns></returns>
private string ClearHtml(string Content)
{
Content = Zxj_ReplaceHtml("&#[^>]*;", "", Content);
Content = Zxj_ReplaceHtml("</?marquee[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?object[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?param[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?embed[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?table[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("&nbsp;", "", Content);
Content = Zxj_ReplaceHtml("</?tr[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?th[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?p[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?a[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?img[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?tbody[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?li[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?span[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?div[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?th[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?td[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?script[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("(javascript|jscript|vbscript|vbs):", "", Content);
Content = Zxj_ReplaceHtml("on(mouse|exit|error|click|key)", "", Content);
Content = Zxj_ReplaceHtml("<\\?xml[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("<\\/?[a-z]+:[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?font[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?b[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?u[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?i[^>]*>", "", Content);
Content = Zxj_ReplaceHtml("</?strong[^>]*>", "", Content);
string clearHtml = Content;
return clearHtml;
}

}

/// <summary>
/// 清除文本中的Html标签
/// </summary>
/// <param name="patrn">要替换的标签正则表达式</param>
/// <param name="strRep">替换为的内容</param>
/// <param name="content">要替换的内容</param>
/// <returns></returns>
private string Zxj_ReplaceHtml(string patrn, string strRep, string content)
{
if (string.IsNullOrEmpty(content))
{
content = "";
}
Regex rgEx = new Regex(patrn, RegexOptions.IgnoreCase);
string strTxt = rgEx.Replace(content, strRep);
return strTxt;
}

分享到:
评论

相关推荐

    asp.net 剔除文本中的html标签 demo

    asp.net 剔除文本中的html标签 demo,框架 3.5 清除html标记,还原纯文本格式.

    清除字符串中的html标记

    我们经常用到一些文本编辑器,文本编辑器中的内容是加了html标记的,如果想清除掉就下载看看,很好的

    在Word中如何滤除HTML格式

    当我们将网页中的某段文字内容复制下来之后,通常在新建的Word文档中进行粘贴,很多情况下,这样粘贴过来的内容往往都带有HTML格式。其实,在Word中就可以直接过滤HTML格式。具体方法是:复制该网页内容后,在新建的...

    jquery删除指定的html标签并保留标签内文本内容的方法

    例如有这样一段html代码: 代码如下:软件开发网演示...我们希望删除这段html代码里面的一对标签,但是要保持里面的内容不被删除,这里我们用jquery处理,详细的jQuery代码: 代码如下:[removed][removed] &lt;script

    Sql Server 如何去掉内容里面的Html标签

    主要介绍了Sql Server 去掉内容里边的Html标签的实现方法,代码超简单,具有一定的参考借鉴价值,需要的朋友可以参考下

    java代码-正则去除HTML代码中的A标签

    java代码-正则去除HTML代码中的A标签

    html禁止清除input文本输入缓存的两种方法

    多数浏览器默认会缓存input的值,只有使用ctl+F5强制刷新的才可以清除缓存记录。  如果不想让浏览器缓存... 在 input 所在的form标签中添加 XML/HTML Code复制内容到剪贴板 autocomplete="off";eg: &lt;form 

    HtmlSanitizer:清除HTML以避免XSS攻击

    HtmlSanitizer HtmlSanitizer是一个.NET库,用于从构造中清除可能导致HTML片段和文档。 它使用来解析,操纵和呈现HTML和CSS。 由于HtmlSanitizer基于强大HTML解析器,因此它还可以使您避免故意或意外的“标签中毒”...

    CleanHTML:清除SciELO网络HTML的脚本

    此脚本可使用以下程序来清理从PDF文档生成HTML文件中的代码: Adobe Acrobat专业版 Adobe InDesign ABBYY PDF变压器 生成带有SciELO接受的标签HTML。 要求(仅Windows) 下载 ,在下载结束时,只需运行该文件,它...

    PHP清除字符串中所有无用标签的方法

    本文实例讲述了PHP清除字符串中所有无用标签的方法。分享给大家供大家参考。具体实现方法如下: 很多时候需要输出一些 “纯” 字符串,也就是去除任何杂质,例如 Html 标签、空格之类的文本,输出的摘要就是如此,下面的...

    Html-JavaScriptHelper帮助类.zip

    过滤指定HTML标签 加载文件块 加载CSS样式文件 加载javascript脚本文件 弹出警告信息并跳转到指定页面地址 弹出信息 无跳转动作 执行js命令 解码得到url值 编码传入url JavaScript客户端脚本输出帮助类 弹出信息,并...

    asp 使用正则表达式替换word中的标签,转为纯文本

    结果是在内容显示页面上是五花八门的样式,有时也需要部分纯文本内容作为摘录使用,这些都需要清除word格式。改变客户的习惯要客户先复制到记事本里再粘贴到编辑器里编辑是很难的,所以从我们自己改变起。从网上百度...

    sanitize-html:清理用户提交HTML,在每个元素的基础上保留列入白名单的元素和列入白名单的属性。 建立在htmlparser2上以提高速度和容忍度

    它非常适合清除HTML片段,例如CKEditor和其他富文本编辑器创建的片段。 从Word复制和粘贴时,删除多余CSS特别方便。 sanitize-html允许您指定要允许的标签,以及每个标签的允许属性。 如果不允许使用标签,则不会...

    javascript中获取元素标签中间的内容的实现方法

    使用此属性,只要为它提供一个有意义的html代码片段,那么html解释器就可以将其中的内容进行解释,并显示在页面上,使用这种方式比较简单,每次修改前不需要先把原来的内容清除掉,而可以直接进行填充,填充的同时会...

    RFC中文文档-txt

    RFC2105 CCisco 系统的标签交换体系结构纵览 RFC2113 IP路由器警告选项 RFC2118 微软点对点压缩(MPPC)协议 RFC2119 关键字用于使用在RFCs指出要求水平 RFC2128 拨号控制MIB(SMIv2) RFC2144 CAST-128 加密算法 RFC...

    前端面经文档-技术要点-面试编程题-资源-html-前端-web-计算机-计算机前端面试题目-校招

    答:生命周期不同:前者一直存在浏览器,除非用户手动清除,后者生命周期结束于浏览器或者tab页 的关闭 canvas的常用api有哪些? getContext:返回一个指定canvas的绘画环境对象 beginPath:开始绘制 moveTo:移动...

    HTML/CSS中的空格处理及如何保留页面中的空格

    HTML中的空格的规则 在html中内容中的多个空格一般会被视为一个,连续的多个空格符被自动合并了。同时内容前后的空格也会被清除, 如下: &lt;p&gt; fly63 com &lt;/p&gt; 显示效果为: fly63 com 备注:浏览器的这种机制处理...

    html入门到放弃笔记

    1、编写一对 body 标记,在body标记中,嵌套一对 div标记,在 div 标记中 ,嵌套一对 a 标记,在 a标记中,嵌套一对 b 标记,b标记中,随意编写一些文本 &lt;body&gt; 这是一段测试文本 &lt;/body&gt; ...

    html+css.md

    其中html中包括常用的标签,列表,表单,表格,框架集,css包括选择器,背景,字体盒模型,文档流,浮动,清除浮动,定位等等等等,还有一些解决IE6的兼容性办法,一共一万四千字左右。只需一个币噢。

    win7右键菜单删除多余项

    win7右键菜单删除多余项

Global site tag (gtag.js) - Google Analytics