`
wang_peng1
  • 浏览: 3902240 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

去除html标记,以及文件的读写

阅读更多
  今天在去字段的时候 把标记取出来了没有办法 只能去除
下面引用别人的文章
http://www.cnblogs.com/zoupeiyang/archive/2009/06/22/1508039.html
/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="Htmlstring">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public string NoHTML(string Htmlstring)
  {
   //删除脚本
   Htmlstring = Htmlstring.Replace("\r\n","");
   Htmlstring = Regex.Replace(Htmlstring,@"<script.*?</script>","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"<style.*?</style>","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"<.*?>","",RegexOptions.IgnoreCase);
   //删除HTML
   Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);","",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
   Htmlstring = Regex.Replace(Htmlstring,@"&#(\d+);","",RegexOptions.IgnoreCase);
   Htmlstring = Htmlstring.Replace("<","");
   Htmlstring = Htmlstring.Replace(">","");
   Htmlstring = Htmlstring.Replace("\r\n","");  
   Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
   return Htmlstring;
  }
http://www.cnblogs.com/happyday56/archive/2009/04/25/1443526.html 这篇也不错
http://www.cnblogs.com/yjwgood/articles/756717.html 这篇如下:
使用 axWebBrowser 控件
引用 mshtml
[1)去掉HTML标记及其标记中的属性
[2)axWebBrower 打开某个页面
[3)取出HTML源代码

1)去掉HTML标记及其标记中的属性
private string getOneValue(string TempStr)
  {
   if(TempStr.Length >0)
   {
    TempStr = regularExpressionsOfHTML(TempStr);
    TempStr = TempStr.Substring(0,TempStr.Length-1);
   }
   return TempStr;
  }
public static string regularExpressionsOfHTML(string TempContent)
  {
   //TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]+>",""); //任意多个
   TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]*>",""); //匹配一个
   return TempContent;
  }

2)axWebBrower 打开某个页面
   string Url = "**********";
   object Zero = 0;
   object EmptyString = "";

   axWebBrowser.Navigate(Url ,ref Zero, ref EmptyString, ref EmptyString, ref EmptyString);

3)取出HTML源代码
   在axWebBrower_DocumentComplete事件中比较好
   引用:using mshtml;

   IHTMLDocument2 HTMLDocument =(IHTMLDocument2) axWebBrowser1.Document;
    string strHtml = HTMLDocument.body.innerHTML.ToString(); //Get HTML
    string[] arHtml = strHtml.Split('\n');
   此时arHtml中保存了所有的HTML source.
我把我自己做的调试程序上传了,这样的文章不能算原创也不算自己的 还是写转载吧
代码可是我的啊  里面有测试字符串的 还有测试文件的  用到了文件的读和写。
分享到:
评论

相关推荐

    去除html标记,读取html文件源代码

    这是一个源代码用于测试 去除html标记 可以测试字符串 也可以测试文件 对于学习读写文件还是不错的 去除html标记 我只用了一种情况其他的可以在网上搜一下 然后用我的测试

    XML 讲解和分析

    XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言,虽然不同的应用软件也支持其它的数据交换格式,但不久之后他们都将支持XML,那就意味着程序可以更容易的与Windows,Mac OS,...

    C#开发实例大全(基础卷).软件开发技术联盟(带详细书签) PDF 下载

    实例015 使用“/”标记给代码段添加说明 18 2.2 运算符的使用 20 实例016 使用引号运算符进行赋值 20 实例017 使用算术运算符开发简单计算器 21 实例018 使用“^”运算符对数字进行加密 22 实例019 巧用位移运算符...

    delphi 开发经验技巧宝典源码

    0046 通过指针读写数据 30 0047 在过程中使用常量参数 31 0048 在过程中使用数组参数 31 0049 在过程中使用默认参数 31 2.4 其他 32 0050 如何在字符串中使用单引号 32 0051 结构对象的定义与使用 32 ...

    delphi 开发经验技巧宝典源码06

    0046 通过指针读写数据 30 0047 在过程中使用常量参数 31 0048 在过程中使用数组参数 31 0049 在过程中使用默认参数 31 2.4 其他 32 0050 如何在字符串中使用单引号 32 0051 结构对象的定义与使用 32 ...

    店盟淘宝客程序V12.1.rar

    8.去掉了固定友链禁止删除限制 9.修正了临时补丁里的退出不完全BUG 10.对收藏标题进行HTML过滤 11.修正分类页每页条数未调用BUG 【11.5更新】 1.增加后台恢复密码备用文件,文件名password.php.lock。需要恢复...

    Python Cookbook

    1.5 去除字符串两端的空格 11 1.6 合并字符串 11 1.7 将字符串逐字符或逐词反转 14 1.8 检查字符串中是否包含某字符集合中的字符 15 1.9 简化字符串的translate方法的使用 18 1.10 过滤字符串中不属于指定集合...

    《程序天下:JavaScript实例自学手册》光盘源码

    19.8 使用FSO读写文本文件 19.9 自动启动文件下载 19.10 创建Excel文件 19.11 JavaScript导出数据到Excel 19.12 JavaScript读取自身文件内的XML 19.13 将XML文件绑定到table 19.14 使用JavaScript加载XML文件 19.15 ...

    程序天下:JavaScript实例自学手册

    19.8 使用FSO读写文本文件 19.9 自动启动文件下载 19.10 创建Excel文件 19.11 JavaScript导出数据到Excel 19.12 JavaScript读取自身文件内的XML 19.13 将XML文件绑定到table 19.14 使用JavaScript加载XML文件 19.15 ...

    PHP基础教程 是一个比较有价值的PHP新手教程!

    PHP网页文件被当作一般HTML网页文件来处理并且在编辑时你可以用编辑HTML的常规方法编写PHP。 PHP代表:超文本预处理器(PHP: Hypertext Preprocessor)。PHP是完全免费的,不用花钱,你可以从PHP官方站点...

    net学习笔记及其他代码应用

    32.给定以下XML文件,完成算法流程图。 &lt;FileSystem&gt; &lt; DriverC &gt; ”MSDOS622”&gt; ” Command.com” &gt;&lt;/File&gt; &lt;/Dir&gt; ”MSDOS.SYS” &gt;&lt;/File&gt; ” IO.SYS” &gt;&lt;/File&gt; &lt;/DriverC&gt; &lt;/FileSystem&gt; [Page] 请画出...

    java 面试题 总结

    HashMap把Hashtable的contains方法去掉了,改成containsvalue和containsKey。因为contains方法容易让人引起误解。 Hashtable继承自Dictionary类,而HashMap是Java1.2引进的Map interface的一个实现。 最大的不同是...

    EXCEL集成工具箱V8.0完整增强版(精简)

    【繁简转换】 可视化的繁简体GB与BGK码以及GB2与BIG5码相互转换,可以复制文本到当前窗体中文本进行转换,也可以实现单个文件或批量文件的转换。在窗体中双击文本字符串尾即可实现自动选定文本并自动复制功能。本...

    EXCEL集成工具箱V6.0

    常 用 工 具 【繁简转换】 可视化的繁简体GB与BGK码以及GB2与BIG5码相互转换,可以复制文本到当前窗体中文本进行转换,也可以实现单个文件或批量文件的转换。在窗体中双击文本字符串尾即可实现自动选定文本并自动...

    JAVA面试题最全集

    在Web开发中需要处理HTML标记时,应做什么样的处理,要筛选那些字符(&lt; &gt; & “”) 3.在JSP中如何读取客户端的请求,如何访问CGI变量,如何确定某个Jsp文件的真实路径。 4.描述Cookie和Session的作用,区别和各自...

    超级有影响力霸气的Java面试题大全文档

    HashMap把Hashtable的contains方法去掉了,改成containsvalue和containsKey。因为contains方法容易让人引起误解。 Hashtable继承自Dictionary类,而HashMap是Java1.2引进的Map interface的一个实现。 最大的不同是...

Global site tag (gtag.js) - Google Analytics