`
wj_126mail
  • 浏览: 127799 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

用正则表达式分析HTML

 
阅读更多
我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理, 剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率,这一点恐怕还不能得到验证。

我想还是先做些具体的事情,效率的问题我们可以慢慢考证。

1. 获取图片的源地址:

(?si)<img.*?src=[',",/s]*(.*?)[',",/s,>]

这个表达式不是抽取完整的<img *** >标签。因为我们只关心img 标签中的 src 属性,所以小括号中是我们真正获取的内容:(.*?)。[',",/s]*匹配了等号后是单引号、双引号或者是空格的情况。[',",/s,>]匹配了源地址后面是单引号、双引号或者是空格的情况。
(?si)匹配了忽略大小写和一行匹配(可能不是很确切,请查相关资料)。其中(?i)代表匹配大写和小写。
分享到:
评论

相关推荐

    正则表达式处理html文本例子

    正则表达式处理html文本例子,简单的正则表达式处理,仅供学习。

    精通正则表达式基于.NET ASP PHP JSP JavaScript

    RegexApplication/Default.aspx 正则表达式类的应用 RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/...

    正则表达式简明教程及正则表达式语言元素

    对于处理字符串(例如 HTML 处理、日志文件分析和 HTTP 标头分析)的许多应用程序而言,正则表达式是不可缺少的工具。 准确地说,正则表达式(regular expression)是一个用于匹配样式(patterns)的工具,已经应用...

    精通正则表达式~~~

    使用正则表达式匹配文本... 38 向更实用的程序前进... 40 成功匹配的副作用... 40 错综复杂的正则表达式... 43 暂停片刻... 49 使用正则表达式修改文本... 50 例子:公函生成程序... 50 举例:修整股票价格....

    C#中利用正则表达式实现

    对于处理字符串(例如 HTML 处理、日志文件分析和 HTTP 标头分析)的许多应用程序而言,正则表达式是不可缺少的工具。  .NET 框架正则表达式并入了其他正则表达式实现的最常见功能,被设计为与 Perl 5 正则表达式...

    正则表达式--递归匹配与非贪婪匹配

     有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号。但是如果括号内还嵌有一层括号的话 ,如 "( ( ) )",则这种写法将不能够...

    18.C#字符串和正则表达式参考手册 影印版

    C#字符串和正则表达式参考手册 目 录 第1章 系统处理文本的方式 1 1.1 .NET Framework 1 1.1.1 公共语言运行时 2 1.1.2 .NET Framework类库 3 1.2 文本是一种数据类型 4 1.2.1 C#的数据类型 5 1.2.2 字符和字符集 6 ...

    正则表达式30分钟入门教程

    最重要的是——请给我30分钟,如果你没有使用正则表达式的经验,请不要试图在30秒内入门——除非你是超人 :) 别被下面那些复杂的表达式吓倒,只要跟着我一步一步来,你会发现正则表达式其实并没有你想像中的那么困难...

    正则表达式测试工具,也可以做为日常一般数据处理的工具

    正则表达式测试工具,也可以做为一般数据处理工具。 有时我们经常需要对html页面源代码进行分析,所以工具提供了直接采集html的功能。输入网址,然后点击后面的按钮采集得到html。接着就在下面输入正则表达式,点击...

    使用正则表达式实现的语法分析引擎(C#源代码)

    N天前有人问怎么用RichTextBox做语法高亮; 这就需要用到语法分析; 还有很多论坛里也支持语法高亮的功能、代码折叠...思路是利用正则表达式逐步取得各种语法构成部分; 目前实现了:C#语法分析、RTF高亮和HTML高亮

    正值表达式匹配html标签的属性值

    正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析,网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍。例如统计代码行数,只需...

    js正则表达式中的单行模式与多行模式实例分析

    本文实例分析了js正则表达式中的单行模式与多行模式。分享给大家供大家参考。具体如下: js正则表达式是不支持单行模式的。也就是说,不能把某段内容(有换行),采用模式修正符来处理,使整段内容当成一行来处理。 ...

    Java使用正则表达式删除所有HTML标签的方法示例

    主要介绍了Java使用正则表达式删除所有HTML标签的方法,结合完整实例形式分析了java针对HTML页面元素script标签、style标签、html标签等的正则匹配相关操作技巧,需要的朋友可以参考下

    学习正则表达式30分钟入门教程(第二版)

    30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。 如何使用本教程 最重要的是——请给我30分钟,如果你没有使用正则表达式的经验,请不要试图在30秒内入门——除非...

    pasteAnalyzer:使用Google自定义引擎搜索文本中的关键字,并对其进行分析以使其与正则表达式匹配

    在Google自定义引擎中搜索文本中的关键字,然后对其进行分析以使其与正则表达式匹配。 在用于分析OSINT的渗透测试的“信息收集”阶段可用。 获得“原始”内容进行处理的站点:github.com,gist.github.com,...

    JS使用正则表达式实现常用的表单验证功能分析

    本文实例讲述了JS使用正则表达式实现常用的表单验证功能。分享给大家供大家参考,具体如下: 表单验证是一个网站或应用的重点,一条合适的错误提示不仅可以减少无效信息录入,更会给用户留下良好的使用体验。但表单...

    C#中的正则表达式介绍

    对于处理字符串(例如 HTML处理、日志文件分析和 HTTP 标头分析)的许多应用程序而言,正则表达式是不可缺少的工具。 .NET 框架正则表达式并入了其他正则表达式实现的最常见功能,被设计为与 Perl 5 正则表达式兼

    PHP 正则表达式分析RSS

    代码如下:$xmlfile = ‘news/’.date(‘YmdH’).’.xml’;... if( !file_exists($xmlfile) ) { $str = @file&#40;$sourcexml&#41; or die(‘加载文件时出错。... 然后用simplexml读取并输出HTML 代码如下:$xml = simple

    C#基于正则表达式抓取a标签链接和innerhtml的方法

    主要介绍了C#基于正则表达式抓取a标签链接和innerhtml的方法,结合实例形式分析了C#使用正则表达式进行页面元素的匹配与抓取相关操作技巧,需要的朋友可以参考下

    详解正则表达式表单验证实例

    下面通过一段代码给大家分析表单验证正则表达式,具体代码如下: &lt;!DOCTYPE html&gt; &lt;html lang="en"&gt; &lt;head&gt; &lt;meta charset="UTF-"&gt; &lt;title&gt;正则验证常用表单方法&lt;/title&gt; &...

Global site tag (gtag.js) - Google Analytics