`
itace
  • 浏览: 172580 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

正则表达式unicode

 
阅读更多

转:http://qixuejia.cnblogs.com/

 

Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。 

\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。 

大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。 

其他六个是 

L:字母; 
M:标记符号(一般不会单独出现); 
Z:分隔符(比如空格、换行等); 
S:符号(比如数学符号、货币符号等); 
N:数字(比如阿拉伯数字、罗马数字等); 
C:其他字符 

上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。 

Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。 

Unicode 正则表达式标准(可以找到所有的子属性) 
http://www.unicode.org/reports/tr18/ 

各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。 
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt 

这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性, 
以及其他一些字符信息。

 

类别

说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,首字母大写

Lm

字母,修饰符

Lo

字母,其他

L

所有字母字符。 这包括 Lu、Ll、Lt、Lm 和 Lo 字符。

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

M

所有音调符号标记。 这包括 Mn、Mc 和 Me 类别。

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

N

所有数字。 这包括 Nd、Nl 和 No 类别。

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据具体使用情况,作用可能像 Ps 或 Pe)

Pf

标点,后引号(根据具体使用情况,作用可能像 Ps 或 Pe)

Po

标点,其他

P

所有标点字符。 这包括 Pc、Pd、Ps, Pe、Pi、Pf 和 Po 类别。

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

S

所有符号。 这包括 Sm、Sc、Sk 和 So 类别。

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Z

所有分隔符字符。 这包括 Zs、Zl 和 Zp 类别。

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(任何字符都不具有此属性)

C

所有控制字符。 这包括 Cc、Cf、Cs、Co 和 Cn

分享到:
评论

相关推荐

    精通正则表达式基于.NET ASP PHP JSP JavaScript

    RegexApplication/Default.aspx 正则表达式类的应用 RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/...

    精通正则表达式~~~

    精通正则表达式第三版 搜集于网络 前言..........I 第1章:正则表达式入门.... 1 解决实际问题... 2 作为编程语言的正则表达式... 4 以文件名做类比... 4 以语言做类比... 5 正则表达式的知识框架... 6 对于...

    正则表达式经典实例中文版 (美)高瓦特斯

    每个程序员都会遇到需要使用正则表达式的情况,但是要用好正则表达式却并不容易。《正则表达式经典实例》提供了100多个实例,以帮助读者使用正则表达式处理数据和文本。即使有经验的用户也经常会遇到性能不佳、误报...

    18.C#字符串和正则表达式参考手册 影印版

    C#字符串和正则表达式参考手册 目 录 第1章 系统处理文本的方式 1 1.1 .NET Framework 1 1.1.1 公共语言运行时 2 1.1.2 .NET Framework类库 3 1.2 文本是一种数据类型 4 1.2.1 C#的数据类型 5 1.2.2 字符和字符集 6 ...

    正则表达式调试工具_RegexDbg_GBK_and_Unicode.7z

    正则表达式调试工具_RegexDbg_GBK_and_Unicode.7z

    小巧强悍的工具Convert:正则表达式测试/代码转换/翻译/编解码/加解密

    1、Regular Expression Tester:正则表达式测试/生成; 2、C#<->VB.Net Converter:C#与VB.Net的相互转换; 3、Google Translator:调用Google语言内核,世界和语种的互译; 4、Encoding<->Decoding:编码和解码,...

    正则表达式经典实例

    中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: ...

    正则表达式经典实例.pdf

    中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: 9787115228321发行...

    C#匹配中文字符串的4种正则表达式分享

    在正则表达式中,中文可以通过Unicode编码来确定正则表达式范围。 在C#中,匹配中文的正则表达式用Unicode来表示时,范围是: [\u4e00-\u9fa5]。所以,在此基础上,我们可以得到如下一些正则表达式。 1、匹配字符串...

    VC6、VS2015、UE编辑器正则表达式查找与替换实例

    用于多字节字符集项目转换为UNICODE字符集代码转换时,提高代码修改效率,将""替换为_T(""),以及_T("")替换为"

    js写的 unicode 汉字编码转换,正则表达式测试

    自个用的一个小工具,比如将 “\u6C49\u5B57\u7F16\u7801\u8F6C\u6362” 转为“汉字编码转换”。要能看得懂描述对你可能有用,如果看不懂说明没有用。...附带简单的正则表达式测试:match和test方法的测试和语法介绍。

    正则表达式之 Unicode 匹配特殊字符

    最初我只是想记录下正则表达式用unicode的方式来匹配特殊字符,写着写着发现 v8 对 u 修饰符的不支持,又转而去研究怎么转换字符串到utf-16的格式,在研究怎么转换的过程中发现ES5的正则对 unicode 编码单元 > 0x...

    java 正则表达式

    [正则表达式]文本框输入内容控制 ….. 默认分类 2009-02-13 10:10 阅读26 评论0 字号: 大大 中中 小小整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^\d{n}$"。只能输入...

    正则表达式 快速参考手册(CHM)+ RegexTester工具

    \a 报警字符(打印它的效果是电脑嘀一声) \b 通常是单词分界位置,但如果在字符类里使用代表退格 \t 制表符,Tab \r 回车 \v 竖向制表符 \f 换页符 ...(name)yes) 同上,只是使用空表达式作为no

    正则表达式30分钟入门教程

    最重要的是——请给我30分钟,如果你没有使用正则表达式的经验,请不要试图在30秒内入门——除非你是超人 :) 别被下面那些复杂的表达式吓倒,只要跟着我一步一步来,你会发现正则表达式其实并没有你想像中的那么困难...

    正则表达式工具3(java版)

    修复了前一个版本布局可能发生形变的恶心bug。 新增支持打开unicode、gbk等文件编码格式的文件功能 新增支持按ctrl同时打开多个文件功能。

    python的正则表达式 re

    介绍如何在python内使用re模块,本模块提供了和 Perl里的正则表达式类似的功能,不管是正则表达式本身还是被搜索的字符串,都可以是 Unicode字符,这点不用担心,python会处理地和 Ascii字符一样漂 亮。

    python正则表达式re模块详细介绍

    本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮。 正则表达式使用反斜杆(\)来转义特殊字符,使其...

    一文秒懂python正则表达式常用函数

    导读: 正则表达式是处理字符串类型的”核武器”,不仅速度快,而且功能强大。本文不过多展开正则表达式相关语法,仅简要 介绍 python中正则表达式常用函数及其使用方 法,以作快速查询浏览。   01 Re概览 Re模块是...

Global site tag (gtag.js) - Google Analytics