`
brandNewUser
  • 浏览: 446116 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

locale错误导致Java中文乱码错误的总结

阅读更多
线上执行MapReduce任务计算时,经过排查发现了某些服务器计算的数据出现中文乱码问题,但是服务器的配置是完全一致的。由于我们使用的key可能包含中文,中文乱码问题体现在每次合并map记录的时候计算数据的随机性,每次执行的结果都不一样(由于Map任务执分配的随机性)。
(注:此文章大部分都参考了同事查找到的问题解决方法。)
 
在执行Java进程的过程中,通过命令:jinfo+Java进程号 可以查看java进程运行的一些环境信息,其中也包括-D设置的相关参数。
 
截取的所有信息中,我们比较感兴趣的是下面两行配置:
file.encoding = ANSI_X3.4-1968
sun.jnu.encoding = ANSI_X3.4-1968
 
 
而其他DataNode上MR进程的相关配置,按照常理来说,这个错误是不应该发生的。
sun.jnu.encoding = UTF-8
file.encoding = UTF-8
 
 
考虑到出问题的那台机器在某天重启过,定位在某次重启时执行的环境问题。执行
 
  • 如果将这台服务器下线,任务执行成功;
  • 如果将任务全部加上对于这里面的两个属性,就会肯定成功,因为此时已经被改变:
java -Dsun.jnu.encoding=UTF-8 -Dfile.encoding=UTF-8 ${mainClass}

 

 
参考了下面一篇文章协助解决这个问题:
 
临时的解决方案,或者将这台服务器执行下线操作,或者将整个集群的mapreduce.admin.map(reduce).child.java.opts设置上加入这两个参数,保证后续所有的MR任务都使用这两个参数。
 
那么问题始终是要找到原因的,于是马上补充一下关于locale的相关知识,下面ubuntu wiki上的内容算是说的比较全面的:
 
执行locale命令,可以得出所有的locale信息(本机的环境并没有问题,ssh到服务器上执行出来的结果也正确):
LANG="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"
LC_CTYPE="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_ALL=
 
 
按照wiki的说明,总共分为12个大类:
  • 语言符号及其分类(LC_CTYPE)
  • 数字(LC_NUMERIC)
  • 比较和排序习惯(LC_COLLATE)
  • 时间显示格式(LC_TIME)
  • 货币单位(LC_MONETARY)
  • 信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES)
  • 姓名书写方式(LC_NAME)
  • 地址书写方式(LC_ADDRESS)
  • 电话号码书写方式(LC_TELEPHONE)
  • 度量衡表达方式(LC_MEASUREMENT)
  • 默认纸张尺寸大小(LC_PAPER)
  • 对locale自身包含信息的概述(LC_IDENTIFICATION)。
 
其中的设置又分为相应的优先级,LC_ALL>LC_*>LANG,LC_ALL是最上级设定或者强制设定,而LANG是默认设定值,当前集群中的所有服务器都没有进行这些参数的手动设置。
 
经过检查,发现mac的字符集确实与其他的有所不同,具体可以参考下面这篇文章:
 
其中说到了:
“Mac OSX uses a special kind of decomposed UTF-8 to store filenames. If you need to read in filenames and write them to a ‘normal’ UTF-8 file, you must normalize them. My understanding of this is that when you pass a name with an accented character like é, it will decompose this into e plus ’ before saving it to the filesystem (this behavior is defined by the Unicode standard).”
 
 
我们的远程服务器并没有显示地指定LC_*参数,那么就会出现本机登陆的相关locale信息被带到远程服务器上。由于Mac中如果没有设置默认则为:
LC_CTYPE=UTF-8
 
 
这个参数会被带到相关的服务器节点中,服务器的操作系统为CentOS,而在CentOS中并没有UTF-8这个值,可以被设置为zh_CN.UTF-8或者en_US.UTF-8这两种类型,而Mac上的UTF-8是无效的。
 
而Java虚拟机在启动的时候,会根据LC_CTYPE来决定sun.jnu.encoding和file.encoding的设置,由于Mac带过来的设置是非法的,导致这两个值被设置成:ANSI_X3.4-1968,这也是其他两个mac用户亲身实践得到的经验(Mac用户的优越感造就了一个大坑…),哈哈。
 
最后,通过手动改变服务器启动加载的配置文件/etc/profile,强制显示地设置locale参数来Fix这个问题,这也是比较推荐的方式(相对于改变java参数来说)。
export LANG=en_US.UTF-8
export LC_CTYPE=en_US.UTF-8
export LC_NUMERIC=en_US.UTF-8
export LC_TIME=en_US.UTF-8
export LC_COLLATE=en_US.UTF-8
export LC_MONETARY=en_US.UTF-8
export LC_MESSAGES=en_US.UTF-8
export LC_PAPER=en_US.UTF-8
export LC_NAME=en_US.UTF-8
export LC_ADDRESS=en_US.UTF-8
export LC_TELEPHONE=en_US.UTF-8
export LC_MEASUREMENT=en_US.UTF-8
export LC_IDENTIFICATION=en_US.UTF-8
export LC_ALL=en_US.UTF-8
 
 
 
分享到:
评论

相关推荐

    java中文乱码解决方案

    n 种方法教你解决java中文乱码 struts2中文乱码解决方法 1. 在struts2里面,最好将所有字符都设成utf-8。 ; charset=UTF-8"%> <%@ page pageEncoding="UTF-8" %>1.1 在jsp页面设定字符编码。这边有必有说明的是...

    Locale Emulator 乱码转区工具

    Locale Emulator 乱码转区工具 2.0.1.0

    测试locale的java代码

    这是一个可运行的小例子,测试locale的java代码

    中文提示文件grid.locale-cn.js

    解决jqGrid中文乱码,根据原版英文grid.locale-en.js翻译而成

    Locale

    java.util.Locale

    日文乱码转换工具

    Locale Emulator(日文游戏乱码转换工具)2.4.0.0官方版

    linux中locale自用总结

    linux中locale自用总结 locale是根据计算机用户所使用的语言、所在国家或者地区、以及当地的文化传统所定义的一个软件运行时的语言环境。

    详解Java中用于国际化的locale类

    Java中也有用于转换和划分地区的国际化类java.lang.Locale,国际化在程序中设置语言和时间等时非常有用,下面我们就来详解Java中用于国际化的locale类

    C语言头文件 LOCALE.H

    C语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE.HC语言头文件 LOCALE....

    乱码消除Locale.Emulator.2.4.1.0.zip

    乱码消除

    GDAL1.92 修改S57中文乱码

    6:修改读取S57海图数据中文属性值乱码 e:\3rdPart\gdal-1.9.2\ogr\ogrsf_frmts\s57\s57reader.cpp line 883 // Add By liml 2013-04-25 Convert UCS-2 to Utf-8 const char* pachBuffer = poRecord->...

    locale-archive

    通过alpine-glibc构建java运行环境镜像,我们使用该镜像运行java程序时会出现中文乱码,所以我要将该字符集加入到alpine-glibc镜像中,解决中文乱码问题。 locale-archive在镜像中的目录:/usr/glibc-compat/lib/...

    Locale详解

    Locale详解Locale详解Locale详解Locale详解

    NT Locale Emulator Advance(NTLEA)区域及内码转换 v0.86中文绿色版

    NT Locale Emulator Advance(NTLEA)区域及内码转换 NTLEA (NT Locale Emulator Advance),是一个区域及内码转换软件。专门用来解决游戏或软件乱码。尤其是喜欢玩日语游戏的读者一定要好好关注此文。 NTLEA 也...

    locale-archive 和 locale-archive.tmpl

    locale-archive 和 locale-archive.tmpl 里面保存了这两个文件。这个是位于Linux系统 /usr/lib/locale 文件夹下的。 里面保存了比较全的字符集。

    Laravel开发-locale

    Laravel开发-locale Laravel 5本地化包

    Spring MVC Locale 的使用 中文 英文 等语言 切换

    NULL 博文链接:https://frank1998819.iteye.com/blog/1050339

    Java的ppt课件

    java.util.Locale类表示特定地理、政治/文化上的地区,Locale对象封装了“地区”、“语言”两方面的信息。通常用在国际化/本地化程序中与地区/语言相关的方式显示日期、数字或文本信息。 主要方法: public Locale...

Global site tag (gtag.js) - Google Analytics