pythonGB2312乱码问题 -

vergilwang

浏览: 125058 次
性别:
来自: 北京

最近访客更多访客>>

iris19860111

u_lama

KEYS123456789

2644781824

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

pythonGB2312乱码问题

博客分类：

Python

unc = stringa.decode("gb2312")

print unc.encode("utf-8")

LovelyPython中的通用解决方案，使用chardet模块，该模块是用来检测目标编码的

[python]view plaincopy 
importchardet,os

def_smartCode(item):
codedetect=chardet.detect(item)["encoding"]
printcodedetect
try:
printitem
item=unicode(item,codedetect)
printitem
returnitem.encode("utf-8")
except:
returnu"badunicodeencodetry!"

为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码

代码中字符串的默认编码与代码文件本身的编码一致。

如：s='中文'

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

如果字符串是这样定义：s=u'中文'

则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断：

isinstance(s, unicode) #用来判断是否为unicode

用非unicode编码形式的str来encode会报错

如何获得系统的默认编码？

#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()

该段程序在英文WindowsXP上输出为：ascii

在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。

如在UliPad中运行如下代码：

s=u"中文"
print s

会提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的（英文系统的默认编码是ascii），而上面代码中的字符串是Unicode编码的，所以输出时产生了错误。

将最后一句改为：print s.encode('gb2312')

则能正确输出“中文”两个字。

若最后一句改为：print s.encode('utf8')

则输出：/xe4/xb8/xad/xe6/x96/x87，这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。

unicode(str,'gb2312')与str.decode('gb2312')是一样的，都是将gb2312编码的str转为unicode编码

使用str.__class__可以查看str的编码形式

原理说了半天，最后来个包治百病的吧：）

复制代码代码如下:

#!/usr/bin/env python
#coding=utf-8
s="中文"
if isinstance(s, unicode):
#s=u"中文"
print s.encode('gb2312')
else:
#s="中文"
print s.decode('utf-8').encode('gb2312')

对于Python的初学者来说，处理汉字估计是最头疼的一件事了，我也算是个初学者，断断续续接触Python也有一年多了，最近才终于搞明白了Python里对多字节字符的处理是怎么回事。

其实Python里对编码的处理能力还是很强大的，只是需要理解它处理字符的方式。Python里有两种字符串，str和unicode，他们都是字符的序列（相当于字符数组），区别在于字符的不同，str里一个字符就是一个字节，unicode中的一个字符是一个unicode里的字，长度可能是2字节，也可能是4字节。

Unicode是Python对多字节字符使用的一种内部编码，也就是说在Python内部处理多字节字符的官方编码，但它并不是我们常见的utf-8，具体是什么编码我也不清楚。在Python里处理字符串时，都需要先将来自文件、网络、或者str的字符串转换成Unicode格式，这一步是通过unicode工厂函数或者str的decode方法（decode可以理解为是从一种被编码的二进制字节流解码为Python内部通用的格式），但这是Python并不知道这个外部格式到底是什么格式，decode方法可以传入一个参数，表示这个数据是什么编码。

得到Unicode对象后，就可以对字符串进行各种操作了。在完成操作，要把字符串输出到文件、网络、或者数据库的时候，就要根据需要再把Unicode转换成需要的目标编码了，这是就要用到encode方法了，将字符串编码成需要的格式

分享到：

python文件读写2 | EM index

2012-07-19 15:52
浏览 317
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pythonGB2312乱码问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pythonGB2312乱码问题

评论

发表评论

相关推荐

python编码问题总结

python补全插件

python类型转换

python正则

python匹配中文

python读写

python路径文件api

python文件读写2

python debug【】

python crawler(1)

python crawler(2)

python spider code

python 爬虫抓站

scapy递归爬

scapy安装and简介

pydev eclipse插件安装

python list

List Tuple Dictionary 区别

抓取网页并解析HTML

python IO

最近访客更多访客>>