数据库管理系统支持某种编码,主要涉及三个方面:
数据库服务器支持。
数据访问接口支持。
客户端工具支持。
1 数据库服务器字符编码:
数据库服务器支持某种编码,是指数据库服务器能够从客户端接收、存储以及向客户端提供该种编码的字符(包括标识符、字符型字段值),并能将该种编码的字符转换到其它编码(如UTF-8编码转到GBK编码)。
1.1指定数据库服务器编码:
Postgresql:
创建数据库时指定:
CREATE DATABASE … ENCODING …
可以取ASCII、UTF-8、EUC_CN、……
1.2查看数据库编码
Postgresql:
show server_encoding
2 数据库访问接口编码
数据访问接口支持某种编码,该接口要做到能对该种编码的字符进行正确读写,不应出现数据丢失、数据失真等情况。
以JDBC接口为例:
JDBC接口一般根据JVM的file.encoding设置client_encoding,set client_encoding to file_encoding。
将String转换成client_encoding编码的字节流,传给服务器端,原型String.getBytes(client_encoding) 。
收到服务器的字节流后,使用client_encoding构造String对象作为getString的返回值给应用程序,原型String(byte[], …, client_encoding)
3 客户端编码
客户端工具支持某种编码,必须能够显示从数据库读取的该种编码的字符,也能通过本工具将该种编码的字符提交到给服务器端。
3.1 Postgresql指定会话的客户端编码
SET CLIENT_ENCODING TO 'value'
3.2查看数据库编码
Show client_encoding
4 查看字符不同编码的二进制字符串
下面是几个字符在不同编码下数据库中的二进制存储串,Postgresql中Select decoding(name,’escape’) from test可以查看数据库服务器中二进制串。
4。1 以“贝钢”为例
GBK编码为:B1B4 B8D6
UTF-8编码为:E8B49D E992A2
GB18030编码为:B1B4 B8D6
4。2 以“”为例
GBK编码为:FE57 FE54
UTF-8编码为:EEA09C EEA099
GB18030编码为:8336C9388336C935
5 编码转换示例
下面通过具体的例子看一下,这个例子中客户端使用GBK/GB18030编码,接口两端使用GBK18030编码,数据库服务器使用UTF-8编码:
转换涉及:
应用程序中编码和连接客户端编码之间的转换
连接服务器端编码和数据库服务器编码之间的转换
在上图中以橙红色箭头表示
以“”为例,不同编码下在数据库服务器中的二进制串分别为:
GBK编码为:FE57 FE54
UTF-8编码为:EEA09C EEA099
GB18030编码为:8336C9388336C935
Socket:
编程接口保证发送给服务器端的字符编码和当前会话的client_encoding保持一致。
可以将client_encoding设成从应用程序获得的字符的当前编码
也可以获得当前会话的client_encoding,将从应用程序获得的字符转化成client_encoding设置的编码
Server:
client_encoding和server_encoding 之间的转换
根据数据库编码转换算法转换,把目标编码中没有的做法转换成问号“”
6平时遇到的问题
对字符进行了错误的编码解析,导致出现乱码。
字符在两个字符集中都存在,导致这部分字符变成“”
- 大小: 273 Bytes
- 大小: 17.6 KB
- 大小: 253 Bytes
分享到:
相关推荐
MySQL 4.1开始把多国语言字符集分的更加详细,所以导致数据库迁移,或则dz论坛升级到4.0后(dz4.0开始使用gbk或utf-8编码)出现乱码问题。本文分析了出现乱码的原因,介绍了MySQL数据库字符集转换及升级的方法。
mysql将表的字符编码转换成utf-8 代码如下:alter table tb_anniversary convert to character set utf8; 修改数据库mysql字符编码为UTF8 步骤1:查看当前的字符编码方法 代码如下:mysql> show variables like’...
Oracle11g 字符集 AL32UTF8 修改为ZHS16GBK .
正常情况下,要将汉字存入数据库,数据库字符集必须支持中文,而将数据库字符集设置为US7ASCII等单字节字符集是不合适的。US7ASCII字符集只定义了128个符号,并不支持汉字。另外,如果在SQL*PLUS中能够输入中文,...
复制到浏览器中打开或者点击“阅读原文”),介绍《循序渐进Oracle》第三章的3.1-3.4节:字符集的基本知识、数据库的字符集、字符集文件及字符支持、NLS_LANG的设置与影响、导入导出及字符转换。 Oracle全球支持(即...
不同区域的信息一般使用不同的字符集编码进行存储表示,数据库管理系统要实现它们之间的共享,必须对不同字符集编码提供支持。描述了数据库管理系统中实现多字符集支持的方法及编码转换时遇到的组合膨胀问题,然后...
3.增加导入目标数据库字符集选项. 4.支持GBK、BIG5、UTF8之间的编码转换(见特别说明4). 特别说明: 1.乱码问题一般仅出现在MySQL 4.1/MySQL 5 版本以后,如果你的数据库低于这个版本,基本可以不用考虑这个问题. 2...
character-set-database:数据库字符集。 character-set-table:数据库表字符集。 优先级依次增加。所以一般情况下只需要设置character-set-server,而在创建数据库和表时不特别指定字符集,这样统一采用character-...
基本概念字符集(Character set):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。...字符集的定义其实就是字符的集合,而字符编码则是指怎么将这
JAVA字符串操作类CTool.java字符转换类,此类中收集Java编程中WEB开发常用到的一些工具。为避免生成此类的实例,构造...、显示大文本块处理(将字符集转成ISO)、将数据从数据库中取出后转换*、编码转换 从UTF-8到GBK。。
character-set-database:数据库字符集。 character-set-table:数据库表字符集。 优先级依次增加。所以一般情况下只需要设置character-set-server,而在创建数据库和表时不特别指定字符集,这样统一采用character-...
影响Oracle数据库字符集最重要的参数是NLS_LANG参数。它的格式如下: NLS_LANG = language_territory.charset它有三个组成部分(语言、地域和字符集),每个成分控制了NLS子集的特性。其中:Language:指定服务器消息的...
在原faisunSQL 4.0的基础上,针对数据备份过程中出现乱码的问题,做了优化. 增强的功能: 1.自动识别数据库版本,对于MySQL 4.1...3.增加导入目标数据库字符集选项. 4.支持GBK、BIG5、UTF8之间的编码转换(见特别说明4).
MySQL从4.1版本开始才提出字符集的概念,所以对于MySQL4.0及其以下的版本,他们的... 现在我将用图文并茂的方式向大家展示一下如何将MySQL字符集进行转换,由于字符集比较多,现在主要举GBK和Latin1这两种字符集之间的
-----MySQL 字符集: UTF-8 Unicode (utf8) -----> 2)建表时候一切默认;至于导入*.SQL没试应该是不用动什么<!-----MySQL 字符集: UTF-8 Unicode (utf8) -----> 3)在 php 文件头部加入 ; charset=utf-8"></HEAD> ...
这时候需要制定字符串的编码,如果采集网页的编码是gb2312,而我们的数据库是utf-8的,这样不做任何处理直接插入数据库可能会乱码(没测试过,不知道数据库会不会自动转码),我们需要手动将gb2312转换成utf-8。...
因为utf8字符集是目前最适合于实现多种不同字符集之间的转换的字符集,尽管你在命令行工具上可能无法正确查看数据库中的内容,我依然强烈建议使用utf8作为默认字符集接下来是完整的一个例子: 1.创建数据库表 mysql>...
Convertz——文本编码转换工具,molyx上介绍的,我采用的。其实这类工具很多。 二理论: MySQL从4.1版本开始内部存储字符集支持了UTF-8,这个我也是这几天才看到的。因为升级论坛过程中,服务器数据库环境为4.0.26...
这个类的功能可实现将数据从数据库中取出后转换、字符编码转换、大文本块处理(将字符集转成ISO)、字符类型转换,比如将String型变量转换成int型变量等操作,在实际应用中,这是个相当实用的字符串操作类。