C#去掉HTML标记 - AlecRichard's Blog - ITeye博客

`

sty2008boy

浏览: 306003 次
性别:
来自: 太原

最近访客更多访客>>

WEN010

sqsgalaxys

leonardz

twyok

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

天使建站：只有代码，不能测试，太不方便，还是结合这里的一起看吧 ...
JQuery遍历JSON
zxyzcmpy：设置了之后依然没用怎么办？
HTTP 错误 404.2 – Not Found.
gongcao：这个ext和amchart都是那个版本啊
amChart覆盖Div层
wanmingtom：谁能看完估计得成神经病
amchart柱状图、折线图配置解析
falloutxxx2：终于发现一个 2.0 的破解谢谢！~！！
amcharts 常用SWF破解

C#去掉HTML标记

博客分类：

Asp.Net

阅读更多

using System.Text.RegularExpressions;
    /// <summary>
    /// 去除HTML标记
    /// </summary>
    /// <param name="strHtml">包括HTML的源码 </param>
    /// <returns>已经去除后的文字</returns>  
 public static string StripHTML(string strHtml)
    {
        string[] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([ ])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.* "
         
         };
        string[] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           " ",
           ""
          };
        string newReg = aryReg[0];
        string strOutput = strHtml;
        for (int i = 0; i < aryReg.Length; i++)
        {
            Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
            strOutput = regex.Replace(strOutput, aryRep[i]);
        }
        strOutput.Replace("<", "");
        strOutput.Replace(">", "");
        strOutput.Replace(" ", "");
        return strOutput;
    }

分享到：

word引用错误 | C#文件操作

2012-01-10 15:45
浏览 1042
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

去除C#HTML标签: C# 去掉字符串中的 HTML 标签。有些字符串中包含一些 HTML 标签不想要，就可以用它去掉其中的标签了。

C# 过滤HTML标签的几种方法: 根据提供的文件信息，本文将详细解释C#中用于过滤HTML标签的几种方法，并对每一步进行深入解析。...这种方法不仅可以有效去除HTML标签，还能处理各种HTML实体，从而确保最终输出的安全性和准确性。

c#里去掉html标记: ### C#中去除HTML标记的方法在Web开发或者文本处理中，经常需要将包含HTML标记的字符串转换为纯文本格式。这种需求在多种场景下都可能出现，比如：展示用户输入时防止XSS攻击、提取文章内容等。本文将详细介绍如何...

C# 去除所有HTML代码: - 使用正则表达式`@"<(.[^>]*)>"`来匹配所有的HTML标签，并用空字符串替换，达到去除HTML标签的目的。 - 这里`[^>]*>`表示匹配所有以`开始，以`>`结束的HTML标签，包括单标签（如` `）和成对标签（如`<p></p>`...

C#字符串.HTML编码处理方式: 本文将详细介绍如何在C#中实现HTML编码处理，包括去除HTML标签、转义特殊字符等方面的内容。 #### 1. HTML编码与解码的重要性在Web应用中，为了防止XSS（跨站脚本攻击）等安全问题，以及确保数据显示正确，经常...

C#过滤html方法: 在`RegexTest`这个文件中，可能包含了一个使用正则表达式去除HTML标签的例子。正则表达式是一种强大的文本处理工具，可以用来匹配、替换或删除特定模式的字符串。例如，我们可以使用以下正则表达式去除HTML标签： ...

C#正则过滤HTML标签并保留指定标签的方法: 在C#中，处理HTML内容时常常需要过滤掉一些不需要的标签，而保留一些特定标签。这可以通过正则表达式（Regular Expression）实现。正则表达式是一种文本模式，包括普通字符（例如，字母和数字）和特殊字符（称为"元...

C#后台去掉提交内容中的HTML标记: 最好把所有的特殊HTML标记都找出来，然后把与其相对应的Unicode字符一起影射到Hash表内，最后一起都替换掉

C#过滤HTML标签源码，使用的正则表达式: 只有一个方法传入要过滤的字符串即可完成HTML标签的过滤操作返回不带HTML标签的字符串非常方便，且实用

C#获取HTML中的文本信息: HTML是一种标记语言，它使用标签来定义文档的结构和内容。比如，`<p>`表示段落，`<a>`表示链接，`<h1>`到`<h6>`表示不同级别的标题等。我们的目标是把这些标签去掉，只保留它们之间的文本内容。在C#中，可以使用`...

AfterWork.Html，HTML页面处理，C#源码。: 在`AfterWork.Html`项目中，开发者可能已经实现了自定义的功能，比如从HTML页面中提取特定数据、清洗HTML以去除无用的标签、替换特定内容，或者生成新的HTML页面。这些功能对于数据抓取、网页自动化或者内容管理应用...

CHM转换器（c#）可以转换CHM到TXT、HTML，也可以实现HTML->TXT，附所有源代码: 如果目标格式是TXT，可以使用HTML解析库（如HtmlAgilityPack）读取HTML文件，去除HTML标签，只保留纯文本内容；如果目标格式是HTML，可能只需将HTML文件移动到相应目录即可。 5. 最后，根据用户需求整理输出目录，...

asp 去除HTML: 在IT领域，特别是Web开发中，去除HTML标签的需求十分常见，尤其是在处理用户输入的数据时，为了防止XSS（跨站脚本）攻击或是为了展示纯文本内容，开发者往往需要将带有HTML标签的字符串转换为纯文本。在经典ASP环境...

C#使用正则表达式过滤html标签: 在C#编程中，正则表达式是一种强大的文本处理工具，尤其在处理HTML内容时，可以用来有效地过滤或提取特定的HTML标签。本篇文章将详细解释如何使用C#的正则表达式来过滤HTML标签，以便将HTML字符串转换为纯文本。 ...

C#使用for循环移除HTML标记: 首先，虽然正则表达式是常见的去除HTML标记的方法，如`StripTagsRegex`函数所示，使用`*?>`匹配HTML标签。但要注意的是，正则表达式处理HTML并不总是完美的，因为它可能无法正确处理嵌套的标签或者复杂的HTML结构。...

.net中去除HTML标记的类: 去除HTML标记包括HTML的源码集合了很多代码移除

C#在线预览PDF: 将PDF每一页渲染成图片后，可以通过HTML的标签加载这些图片以实现预览。 3. **PDF转HTML**：另一种方法是将PDF内容转换为HTML，这通常需要更复杂的处理。PDFsharp或Syncfusion库可以做到这一点，它们可以解析PDF并...

C#中除去所有在HTML元素中标记: /// 除去所有在HTML元素中标记 public static string StripHTML(string strHtml) { string strOutput=... 您可能感兴趣的文章:C#使用正则表达式过滤html标签C#抓取网页数据解析标题描述图片等信息去除HTML标签

GetHtml.rar_PDA C＃_Ppc_c# html: 从标签"pda_c＃ ppc c#_html"中，我们可以推断出该程序专注于C#语言的Web交互，特别是在PDA和PPC设备上的实现。这可能涉及到使用.NET框架的WebClient或HttpWebRequest类来发送HTTP请求，获取HTML响应，然后使用...

C#实现过滤html标签并保留a标签的方法: 有时候，我们只需要在HTML字符串中保留特定标签，例如a标签，而去除其他的HTML标签。为了实现这一功能，可以使用正则表达式，它是一种强大的文本处理工具，能够通过定义匹配模式来搜索、替换或提取字符串。本文的...

Global site tag (gtag.js) - Google Analytics