#-*-coding:UTF-8 -*-
Python的ASCII, GB2312, Unicode , UTF-8
关键字: python ASCII GB2312 Unicode UTF-8
ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127
Unicode分为UTF-8和UTF-16。UTF-8变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理。
Python 从 2.2 开始支持 Unicode ,函数 decode( char_set )可以实现 其它编码到 Unicode 的转换,函数 encode( char_set )实现 Unicode 到其它编码方式的转换。
比如 ("你好").decode( "GB2312") 将得到 u'\u4f60\u597d',即 "你"和“好"的 Unicode 码分别是 0x4f60 和 0x597d
再用 (u'\u4f60\u597d').encode("UTF-8") 将得到 '\xe4\xbd\xa0\xe5\xa5\xbd',它是 “你好”的UTF-8编码结果。
python中使用 unicode的关键:unicode是一个类,函数unicode(str,"utf8")从utf8编码(当然也可以是别的编码)的字符串str生成 unicode类的对象,而函数unc.encode("utf8")将unicode类的对象unc转换为(编码为)utf8编码(当然也可以是别的编码)的字符串。于是,编写unicode相关程序,需要做的事情是
* 获取数据(字符串)时,用unicode(str, "utf8")生成unicode对象
* 在程序中仅使用unicode对象,对程序中出现的字符串常量都以u"字符串"的形式书写
* 输出时,可将unicode对象转换为任意编码输出,使用str.encode("some_encoding")
>>> unicode("你好", "utf8")
u'\u4f60\u597d'
>>> x = _
>>> type(x)
<type 'unicode'>
>>> type("你好")
<type 'str'>
>>> x.encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> x.encode("gbk")
'\xc4\xe3\xba\xc3'
>>> x.encode("gb2312")
'\xc4\xe3\xba\xc3'
>>> print x
你好
>>> print x.encode("utf8")
你好
>>> print x.encode("gbk")
???
以上是测试结果(Ubuntu 6.06,locale为utf8),注意type(x)和type("你好")的区别。从编码上可以看出utf8编码与gbk不同。在utf8的 locale设置下,打印x按该环境变量编码(我猜我猜我猜猜猜),而打印x.encode("gbk")则是乱码。
分享到:
相关推荐
Python简介 - Python的历史 / Python的优缺点 / Python的应用领域 搭建编程环境 - Windows环境 / Linux环境 / MacOS环境 从终端运行Python程序 - Hello, world / print函数 / 运行程序 使用IDLE - 交互式环境(REPL) ...
具有源代码功能的 Python 中的 URL 缩短和转换器应用程序 基本图形用户界面 该项目包含显示应用程序实际图像的基本 GUI。 基本功能 该项目包含使应用程序按预期工作的基本功能。 用户友好的界面 该项目是在一个简单...
用Python和Flask进行语音识别 于2021年2月22日对语音识别应用进行编码以进行机器学习。 此应用程序是Web低音机器学习系统,可将wav格式的口语单词转换为文本格式
定制开发的python代码供各种无人机成像应用程序使用,例如将DNG(RAW)无人机图像批量转换为JPEG或PNG,使用去马赛克的rawpy库功能,伽玛系数校正和使用skimage库进行演示彩色图像中的直方图直方图均衡化以创建更好...
授课教师: 第2章 Python语言基础 课程描述 本章将介绍Python语 言的基本语法和编码 规范,并重点讲解 Python语言的数据类 型、运算符、常量、 变量、表达式和常用 语句等基础知识,为 使用Python开发应用 ...
将整个图像文件夹转换成Python代码 转换一个完整的文件夹 放入一个完整的文件 跑步 当您运行该程序时,您将看到此窗口。 您可以粘贴图像文件夹的路径,也可以使用“浏览”按钮找到该文件夹。 输入后,单击...
广泛应用于MIME协议,作为电子邮件的传输编码,生成的编码可逆,后一两位可能有“=”,生成的编码都是ascii字符。 优点:速度快,ascii字符,肉眼不可理解 缺点:编码比较长,非常容易被破解,仅适用于加密非关键...
主要针对 Python2.7.x 3.x、PyQt4.x 5.x、PySide1.2.x 2.x 代码开发流程进行优化,譬如:高效编写、重构,批量修改、自动化版本管理,还集成了很多文件处理、间接排版、编码转换、语音助理等 "小程序" 。 应用还对...
地理编码和逆地理编码:通过高德地图API将地址信息转换为经纬度坐标(地理编码),或将经纬度坐标转换为地址信息(逆地理编码)。 路径规划:基于高德地图数据和算法,实现从一个地点到另一个地点的最优路径规划,...
但是,3D LUT 将 RGB 空间中的每种颜色直接映射到另一种指定颜色 (ℝ³ -> ℝ³),从而允许进行强大且任意的转换,例如灰度、伪色和色相偏移。所有颜色效果,例如伽马、对比度、亮度等,都可以编码为 3D LUT。 3D ...
当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、...
允许批量转换在给定路径下找到的图片,并在CSS或CSV中打包base64编码的字符串 支持png,jpg,gif(还包括动画gif),svg的转换 具有文档化界面的控制台应用程序(包括--help ) 跨平台:使用Python,可以在Linux,...
维护脚本一例,写得有点乱,只是作为一个实例,演示如何快速利用工具快速达到目的:应用到:shell与python数据交互、数据抓取,编码转换 复制代码 代码如下:#coding:utf-8#!/usr/bin/python”’程序说明:apache ...
还可以从action方法签名实现转换 - 25 - 高级HTTP Java绑定 - 26 - 简单类型 - 26 - Date类型 - 26 - Calendar日历 - 27 - File - 27 - 支持类型的数组或集合 - 28 - POJO对象绑定 - 29 - JPA 对象绑定 - 30 - 定制...
还可以从action方法签名实现转换 - 25 - 高级HTTP Java绑定 - 26 - 简单类型 - 26 - Date类型 - 26 - Calendar日历 - 27 - File - 27 - 支持类型的数组或集合 - 28 - POJO对象绑定 - 29 - JPA 对象绑定 - 30 - 定制...
修复Linux中的硬编码托盘图标 该脚本将自动检测您的默认主题,正确的图标大小,硬编码的应用程序,每个指示器的正确图标并进行修复。 所有这些都可以还原为原始图标。 主题 以下是支持Hardcode-Tray的主题列表: ...
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始...
2 支持ANSI,Unicode,UTF-8等编码互换 3 可以设置无限个书签(9种图标可换)轻松定位 4 空格,制表符彩色显示,并可互相转换 5 可以对任意的文本块进行操作,ALT键+鼠标 6 对括号{}〔〕()可以高亮配对...
Python在数据分析和处理方面具有广泛的应用,下面是对这个过程的描述: 数据获取:首先,需要获取要分析和处理的数据。这可以包括从数据库、文件(如CSV、Excel等)、API接口或网络爬取等方式获取数据。 数据清洗...
Deeplator是一个Python库和应用程序,可通过的DeepL翻译器进行翻译。 2017年8月,DeepL发布了DeepL转换器。 凭借前所未有的翻译质量,DeepL翻译器为神经机器翻译树立了新的标准。 退房以获取更多信息。 当前,支持的...