元字符:
\b 匹配字符边界 eg. \bhello\b 匹配单词 hello \bhello\b.*\bworld\b 匹配hello world
. 匹配除了换行符以外的任意字符
* 代表任意数量 eg. .* 匹配任意个任意字符(不包括换行)
\s 包括任意字符
\w 匹配字母,数字,_(下划线),汉字 \w+ 匹配一个或以上的字符
\d 匹配一个数字 eg. 0\d{2}-\d{8} 可匹配 020-13164897
^ 匹配字符的开始 $ 匹配字符的结束 eg.^\d{5,12}$ 匹配 5到12的数字,比如QQ
字符转义:
\ 可以用来转定义 . * , \. 匹配 . \*匹配 *
重复:
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
字符类:
[]
[字符1字符2...]则匹配字符中的任意一个,[0-9]等值于\d
分支条件:
|表示或,匹配之前或之后的
0\d{2}-\d{8}|0\d{3}-\d{7} 可以匹配 020-12345678 或者 0663-1234567
分组:
(表达式)可以用来重复相同的值
反义:
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
eg.<a[^>]+>\s<\/a>匹配超链接
后向引用:
分类
代码/语法
说明
捕获
(exp) |
匹配exp,并捕获文本到自动命名的组里 |
(?<name>exp) |
匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) |
(?:exp) |
匹配exp,不捕获匹配的文本,也不给此分组分配组号 |
零宽断言
(?=exp) |
匹配exp前面的位置 |
(?<=exp) |
匹配exp后面的位置 |
(?!exp) |
匹配后面跟的不是exp的位置 |
(?<!exp) |
匹配前面不是exp的位置 |
注释
(?#comment) |
这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读 |
分享到:
相关推荐
常用正则表达式大全.txt常用正则表达式大全.txt常用正则表达式大全.txt常用正则表达式大全.txt常用正则表达式大全.txt
广告过滤正则式 来自闻仲 可以和大家交流一下
常见各种正则校验正则表达式汇总 (一、校验数字的表达式 二、校验字符的表达式 三、特殊需求表达式。 。。)
正则表达式常用的 整数或者小数,只能输入数字,只能输入m~n位的数字,只能输入由数字和26个英文字母组成的字符串。等等
整理常用正则表达式
最全的正则表达式电子书下载 有案例图解,适合初学者
031115_【第11章:Java常用类库】_正则表达式.rar
正则练习中小说爬取运行结果
假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。 这几乎是最简单的正则表达式了,它可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。通常,处理正则表达式的工具会提供一个忽略大小写...
<html> <head> <title>re模块,学习笔记</title> </head> <body> <h2>python 学习笔记 <body/> </html>
需要解决如下操作:有多个shtml...inc 就是变成 //www.jb51.net/fgdf/222/inc/1234.shtml //www.jb51.net/tyty/333/inc/456456.shtml解决方法:一般来说editplus等支持正则表达式的软件就可以了查找目标: 代码如下: ^
Python18 正则表达式小说网站爬虫.avi