`
sty2008boy
  • 浏览: 294901 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

C#去掉HTML标记

阅读更多

using System.Text.RegularExpressions;
    /// <summary>
    /// 去除HTML标记
    /// </summary>
    /// <param name="strHtml">包括HTML的源码 </param>
    /// <returns>已经去除后的文字</returns>  
 public static string StripHTML(string strHtml)
    {
        string[] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([ ])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.* "
         
         };
        string[] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           " ",
           ""
          };
        string newReg = aryReg[0];
        string strOutput = strHtml;
        for (int i = 0; i < aryReg.Length; i++)
        {
            Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
            strOutput = regex.Replace(strOutput, aryRep[i]);
        }
        strOutput.Replace("<", "");
        strOutput.Replace(">", "");
        strOutput.Replace(" ", "");
        return strOutput;
    }
 
分享到:
评论

相关推荐

    去除C#HTML标签

    C# 去掉 字符串中的 HTML 标签。 有些字符串中 包含一些 HTML 标签 不想要,就可以用 它去掉其中的标签了。

    c#里去掉html标记

    c#里去掉html标记

    C# 过滤HTML标签的几种方法

    /// 去除HTML标记 /// /// &lt;param name="NoHTML"&gt;包括HTML的源码 /// 已经去除后的文字 public static string NoHTML(string Htmlstring) { //删除脚本 Htmlstring = Regex.Replace(Htmlstring, @"[^&gt;]*?&gt;.*?...

    C#后台去掉提交内容中的HTML标记

    最好把所有的特殊HTML标记都找出来,然后把与其相对应的Unicode字符一起影射到Hash表内,最后一起都替换掉

    C#过滤HTML标签源码,使用的正则表达式

    只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用

    C#正则过滤HTML标签并保留指定标签的方法

    主要介绍了C#正则过滤HTML标签并保留指定标签的方法,涉及C#针对页面HTML元素正则匹配与替换相关操作技巧,需要的朋友可以参考下

    .net中去除HTML标记的类

    去除HTML标记 包括HTML的源码 集合了很多代码移除

    C#中除去所有在HTML元素中标记

    /// 除去所有在HTML元素中标记 public static string StripHTML(string strHtml) { string strOutput=... 您可能感兴趣的文章:C#使用正则表达式过滤html标签C#抓取网页数据 解析标题描述图片等信息 去除HTML标签

    C#使用正则表达式过滤html标签

    最近在开发一个项目,其中有需求要求我们把一段html转换为一般文本返回,使用正则表达式是明智的选择,下面小编给介绍下C#使用正则表达式过滤html标签,需要的朋友参考下

    C#使用for循环移除HTML标记

    移除一段文字中的HTML标记,以消除其中包含的样式和段落等,最常用的办法可能就是正则表达式了。但是请注意,正则表达式并不能处理所有的HTML文档,所以有时采用一个迭代的方式会更好,如for循环。 看下面的代码: ...

    C#实现过滤html标签并保留a标签的方法

    主要介绍了C#实现过滤html标签并保留a标签的方法,文中的自定义函数采用正则过滤实现了该功能,是非常实用的技巧,需要的朋友可以参考下

    C#抓取网页数据 解析标题描述图片等信息 去除HTML标签

    一、首先将网页内容整个抓取下来,数据放在byte[]中(网络上传输时形式是byte),进一步转化为String,以便于对其操作,实例如下: 代码如下: private static string GetPageData(string url) ...

    C#-字符串操作类

    、指定字符串分割字符串、指定字符串位置获取字符串、过滤SQL中非法字符、检查SQL语句中是否有非法关键字、随机字符串生成、唯一字符串生成、随机数字生成、唯一数字串生成、去除HTML标签、判断是否整型、判断是否...

    去除文字里的HTML标签方法

    去 除 文 字 里 的 HTML 标 签 的 一 些 方 法

    C#编程经验技巧宝典

    85 &lt;br&gt;0131 巧截字符串的数字 86 &lt;br&gt;0132 如何存储变长字符串 86 &lt;br&gt;0133 在进行字符串比较时忽略大小写 87 &lt;br&gt;0134 如何去除字符串尾空格 87 &lt;br&gt;0135 如何去掉字符串中所有空格 ...

    C#开发实例大全(基础卷).软件开发技术联盟(带详细书签) PDF 下载

    《C#开发实例大全(基础卷)》筛选、汇集了C#开发从基础知识到高级应用各个层面约600个实例及源代码,每个实例都按实例说明、关键技术、设计过程、详尽注释、秘笈心法的顺序进行了分析解读。全书分6篇共25章,主要...

    c# http post get

    using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Net.Sockets; using System.Collections;...using System.Text.RegularExpressions;...using RE = System.Text....

    提取HTML代码中文字的C#函数

    /// &lt;summary&gt; /// 去除HTML标记 /// &lt;/summary&gt; /// ”strHtml”&gt;包括HTML的源码 &lt;/param&gt; /// 已经去除后的文字&lt;/returns&gt; public static string StripHTML(string strHtml) { string [] aryReg ={ @...

Global site tag (gtag.js) - Google Analytics