`

python编码问题总结

阅读更多

http://www.xprogrammer.com/1258.html

最近利用python抓取一些网上的数据,遇到了编码的问题。非常头痛,总结一下用到的解决方案。

  •     linux中vim下查看文件编码的命令 set fileencoding
  •     python中一个强力的编码检测包 chardet ,使用方法非常简单。linux下利用pip install chardet实现简单安装
import chardet
f = open('file','r')
fencoding=chardet.detect(f.read())
print fencoding

fencoding输出格式 {‘confidence’: 0.96630842899499614, ‘encoding’: ‘GB2312′} ,只能判断是否为某种编码的概率。比较准确的结果了。输入参数为str类型。

  •       了解python中str的编码后可以利用decode和encode来实现编码的转换。

一般流程是str利用decode方法根据str的编码将其解码为unicode字符串类型,然后利用encode根据特定的编码将unicode字符串类型转换为特定的编码。python中str和unicode属于两种不同的类型,如下。

python中str和unicode属于两种不同的类型

  •  一般情况下window默认编码gbk,linux默认编码utf8
  •  python编程中 系统编码,python编码,文件编码 的概念。

系统编码:默认写源码的编辑器的编码方式。它代表源码文件内的所有内容都是根据词方式编码成二进制码流。存入到磁盘中的。linux下通过locale命令查看。

python编码:指python内设置的解码方式。如果不设定的话,python默认的是ascii解码方式。如果python源代码文件中不出现中文的话,这个地方怎么设定应该不会问题。

设定方法:在源码文件开头(一定是第一行):#-*-coding:UTF-8-*-,源码文件的设置解码方式是UTF-8 或者

import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

文件编码:文本的编码方式,linux下vim利用set fileencoding查看。

  •     一般情况下输出乱码的原因就是 没有按照系统解码的方式进行编码。

比如print s, s类型为str,linux系统下系统默认编码为utf8编码,s在输出前就应该编码为utf8。如果s为gbk编码就应该这样输出。print s.decode(‘gbk’).encode(‘utf8′)才能输出中文。

window下面情况相同,window默认编码为gbk编码,所以s输出前必须编码为gbk。

  •     python处理中一般处理unicode类型。这样输出前直接编码即可
分享到:
评论

相关推荐

    python编码汇总

    python编码知识网上摘录汇总,python编码小实例,python编码处理

    python PEP8 编码规范总结

    参照https://legacy.python.org/dev/peps/pep-0008/官方文档简单总结了python编程过程中应当遵守的编码规范,比如函数的命名、变量的命名等(PEP8编码规范)。

    Python编码风格指南(中文版)

    1.2 Python 编码风格方面的准则 2. Python 语言方面的准则 2.1 pychecker 2.2 导入模块和包 2.3 完整路径导入 2.4 异常处理 2.5 全局变量 2.6 内嵌/本地/内部类和函数 2.7 List Comprehensions 2.8 默认迭代器和...

    总结Python基础面试题.docx

    总结Python基础面试题全文共6页,当前为第1页。总结Python基础面试题全文共6页,当前为第1页。总结Python基础面试题 总结Python基础面试题全文共6页,当前为第1页。 总结Python基础面试题全文共6页,当前为第1页。 1...

    python3编码问题汇总

    本文给通过一个具体的编码问题的解决办法,给大家详细分享了python中的编码问题的来龙去脉,非常的细致全面,有需要的小伙伴可以参考下

    Python语言程序设计PPT课件.zip

    Python程序设计的书籍已经琳琅满目,每一本书都凝聚了作者对Python的理解和对程序设计的认识,都是作者编程开发和教学经验的总结,都折射出作者的专业背景。由于大数据专业学生对程序设计的要求不是很高,但又需要...

    Python语言程序设计习题答案.zip

    Python程序设计的书籍已经琳琅满目,每一本书都凝聚了作者对Python的理解和对程序设计的认识,都是作者编程开发和教学经验的总结,都折射出作者的专业背景。由于大数据专业学生对程序设计的要求不是很高,但又需要...

    python编码总结(编码类型、格式、转码)

    本文详细总结了python编码。分享给大家供大家参考,具体如下: 【所谓unicode】 unicode是一种类似于符号集的抽象编码,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。也就是它只是一种内部...

    python中文编码问题小结

    中文编码问题一直是Python程序设计中很头痛的问题,本文对此较为详细的进行了总结归纳。具体如下:   当字符串是:’\u4e2d\u56fd’  >>>s=['\u4e2d\u56fd','\u6e05\u534e\u5927\u5b66'] >>>str=s[0].decode('...

    简明Python代码规范 Python编程规范 Python开发代码规范与标准 Python编程开发习惯 共13页.pdf

    简明Python代码规范 一、 执行 二、 编码 三、 注释 四、 格式 1. 缩进 2. 空格 3. 空行 4. 断行 五、 命名 1. 常量 2. 变量 3. 函数 4. 类 5. 模块 6. 包 7. 缩写 8. 特定命名方式 六、 语句 1. import 2. 赋值 3. ...

    夜曲编程Python入门课程Pro.pdf

    python编码需要顶格编程 python 注释是#号 # 注释内容,#号后⾯有空格 第 2 课 变量与赋值 变量名只能由字母、数字、下划线组成。 1. 不以数字开头 2. ⼤⼩写敏感 格式化输出: name = "Tony" print(f"My name is {...

    python2.7 和pymysql安装依赖包

    linux SUSE 上安装python2.7及pymysql所有依赖的包汇总

    python与字符编码问题

    用python2的小伙伴肯定会遇到字符编码的问题。下面对编码问题做个简单的总结,希望对各位有些帮助。 故事零:编码的定义 我们从“SOS“(国际通用求助信号)开始,它的摩斯密码的编码是: “…—…”,想一下为...

    python类装饰器装饰方法通用编码模型分析.pdf

    python装饰器是一个用于封装函数、...本文首先探讨了实现装饰方法的类装饰器应具有的基本结构,接着对通用的两种编码模型进行了语法和流程的深入分析,并总结了各自的特点,为编写类装饰器装饰方法提供扎实的理论基础。

    详解Python在使用JSON时需要注意的编码问题

    写这篇文章的缘由是我使用 ... 这篇文章虽然是 json.dumps 问题的总结, 但也会涉及到 字符编码 问题, 所以就简单先说一下 字符编码. Python 中的字符编码 在 Python3 中, 字符 在内存中是使用 Unicode 存储的, 常规的

    Python常用base64 md5 aes des crc32加密解密方法汇总

    Python内置的base64模块可以实现base64、base32、base16、base85、urlsafe_base64的编码解码,python 3.x通常输入输出都是二进制形式,2.x可以是字符串形式。 base64模块的base64编码、解码调用了binascii模块,...

    解决Python2.7读写文件中的中文乱码问题

    Python2.7对于中文编码的问题处理的并不好,这几天在爬数据的时候经常会遇到中文的编码问题。但是本人对编码原理不了解,也没时间深究其中的原理。在此仅从应用的角度做一下总结, 1.设置默认编码 在Python代码中的...

    Python第一阶段笔记汇总.docx

    (二)字符串 str(不可变序列+字符编码值) 33 (二) 列表 list (预留空间+可变序列+储存变量) 35 (四) 元组 tuple(按需分配+不可变序列+存储变量) 44 (五) 字典 dict (按键取值+可变散列+存储键值对) 46 ...

    python2.7的编码问题与解决方法

    Python的编码问题基本是每个新手都会遇到的坎,但只要完全掌握了就跳过了这个坑,万变不离其中,下面给大家整理了在python2.7遇到的编码问题,下面来一起看看吧。 一、直接在python文件内修改系统编码 默认的编码...

Global site tag (gtag.js) - Google Analytics