php正则前瞻和后顾分析应用 -

xiaobo.liu

浏览: 38893 次
性别:
来自: 山西

最近访客更多访客>>

robotmen

edikud

yhmcslgg

码农教程

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

php正则前瞻和后顾分析应用

博客分类：

php 正则

做日志分析工作的经常需要跟成千上万的日志条目打交道，为了在庞大的数据量中找到特定模式的数据，常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目，找出不以某个特定字符串打头的条目，等等。

正则表达式中有前瞻（Lookahead）和后顾（Lookbehind）的概念，这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点，正则表达式中的前和后和我们一般理解的前后有点不同。一段文本，我们一般习惯把文本开头的方向称作“前面”，文本末尾方向称为“后面”。但是对于正则表达式引擎来说，因为它是从文本头部向尾部开始解析的（可以通过正则选项控制解析方向），因此对于文本尾部方向，称为“前”，因为这个时候，正则引擎还没走到那块，而对文本头部方向，则称为“后”，因为正则引擎已经走过了那一块地方。

所谓的前瞻就是在正则表达式匹配到某个字符的时候，往“尚未解析过的文本”预先看一下，看是不是符合/不符合匹配模式，而后顾，就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配 。

现代高级正则表达式引擎一般都支持都支持前瞻，对于后顾支持并不是很广泛，因此我们这里采用否定式前瞻来实现我们的需求。

第一个分组啥都没有匹配到，而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上，当正则引擎解析到A区域的时候，就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符，前瞻条件又满足，A区域后面紧跟着的是 “2009”字符串，而并不是robots。因此整个匹配过程成功匹配到所有条目。

将.*?移入前瞻表达式

0
顶

0
踩

分享到：

无题无题 | Shell脚本调试技术

2012-09-05 17:10
浏览 1070
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

php正则前瞻和后顾分析应用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

php正则 前瞻和后顾 分析应用

评论

发表评论

相关推荐

gearmand 环境安装与配置

php关于$i++与++$i分析

apache

将 PHP 模块和 MySQL 模块关联起来

在PHP中非阻塞应用的分析

php数组过滤

php+mysql+apache 环境搭建

php 缓存代码的坏味道

php 方法多参数重构

php windows xdebug的安装使用（1）

php

最近访客更多访客>>

php正则前瞻和后顾分析应用