python 字符串中的中文识别

yangsq

浏览: 181172 次
性别:
来自: 北京

最近访客更多访客>>

lcy19870112

wangguorui89

jielun1995

西蜀石兰

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

python学习

Python 正则表达式

python的中文问题一直是让人不爽的一件事情，而python的一个强大之处恰恰是string的处理，而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。

实验室的complex network项目，目前是数据处理阶段，考虑到python的高效和强大的string功能，我决定使用python对大量的数据进行处理。

下面是一个简单的demo，先贴代码，然后进行说明：

python 代码

# -*- coding: gb18030 -*-
import string
import re
identify = string.maketrans('', '')
delEStr = string.punctuation + ' ' + string.digits #ASCII 标点符号，空格和数字
delCStr = '《》（）&%￥#@！{}【】'
s = '中华人民共和国（北京）'
s = s.translate(identify, delEStr) #去掉ASCII 标点符号和空格
if re.findall('[\x80-\xff].', s): #s为中文
s = s.translate(identify, delCStr)
print s
else: #s为英文
print s

当然，首先是要import string和re（这里需要正则表达式功能）。

delEStr是一个包含英文标点符号和数字的字符串，就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。

12行的功能就是把s中的英文标点符号都删除。下面一句是关键：

python 代码

re.findall('[\x80-\xff].', s)

这行代码将返回一个list，如果s中包含中文，则返回一个包含每个汉字的非空的list，如果s中不包含中文，则返回一个空list（即[ ]）。

第14行要删除这个含中文的字符串中的中文标点符号。

运行这段程序，打印出来的是“中华人民共和国北”，“京”呢？不见了。这就是python让人头疼的地方。错误出在第14行，可能原因是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没找到好的解决办法

这段代码最主要的应用就是translate和findall两个函数，不过在使用translate函数之前要构造一个identify，就像第5行代码那样。

出现了问题是好事，它可以促使自己更加深入的去学习，并且现在处于学习阶段，多遇到问题毕竟是好事，继续学习ing....

分享到：

MOF - the Meta-Object Facility | XSD to Ecore connection Mapping

2007-11-21 15:42
浏览 19686
评论(5)
论坛回复 / 浏览 (4 / 10230)
查看更多

5 楼 goldmaster 2012-10-22

if re.findall('[gb18030].', s): #s为中文
it's ok now

4 楼 harry 2008-05-05

s = u'中华人民共和国（北京）'

3 楼 MountLion 2007-12-02

# -*- coding: utf-8 -*-

s = '中华人民共和国（北京）'
print s.encode('gb18030') # or print s

把程序文件保存成utf-8格式的即可。

2 楼 guotie 2007-11-30

# -*- coding: gb18030 -*-
# -*- coding: utf-8 -*-

1 楼 limodou 2007-11-21

建议使用真正的unicode来处理，你说的并不是unicode。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论