iconv命令是运行于linux/unix平台的文件编码装换工具。当我们在linux/unix系统shell查看文本文件时,常常会发现文件的中文是乱码的,这是由于文本文件的编码与当前操作系统设置的编码不同而引起的,这时可以使用iconv进行编码转换,从而解决乱码问题。
解决文本文件乱码问题分3步:1.确定文件编码,2.确定iconv是否支持此编码的转换,3.确定Linux/Unix操作系统编码,4.转换文件编码为与系统编码一致;下面通过对test.txt文件来举例。
1、 使用file命令来确定文件编码:
file test.txt ISO-8859 text, with CRLF line terminators
也开始使用如下命令得到更加精确的编码:
file -bi test.txt | sed -e 's/.*[ ]charset=//' |tr '[a-z]' '[A-Z' ISO-8859-1
可见test.txt文件编码为ISO-8859-1编码。
2、 使用iconv -l确定iconv是否支持此种编码的转换:
$ iconv -l | grep ISO-8859-1 ISO-8859-1// ISO-8859-10// ISO-8859-11// ISO-8859-13// ISO-8859-14// ISO-8859-15// ISO-8859-16//
3、 确定Linux/Unix操作系统编码:
$ echo $LANG zh_CN.UTF-8
当前操作系统坏境编码为"UTF-8"
4、 转换编码
注:由于file命令常常会误判编码,如发现转换出来的编码依然是乱码,可将iconv -f的输入编码换成其他常用编码试试: GBK、BIG5、HZ、GB2312、GB18030、ASCII。
另外:编码转换的时候,如果你的源格式设定为 GB2312 的话,而且在转换成 UTF-8 的时候,发现程序会报“illegal input sequence at position xxxx”的错误。这是由于你之前的做的假定有问题。GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。
iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。
用法: iconv [选项...] [文件...]
有如下选项可用:
输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码
信息:
-l, --list 列举所有已知的字符集
输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息
-?, --help 给出该系统求助列表
--usage 给出简要的用法信息
-V, --version 打印程序版本号
例子:
iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
附:
文件名转换
因为现在用linux,原来在windows里的文件都是用GBK编码的。所以copy到linux下是乱码,文件内容可以用iconv来转换可是好多中文的文件名还是乱码,找到个可以转换文件名编码的命令,就是convmv。
convmv命令详细参数
例如
convmv -f GBK -t UTF-8 *.mp3
不过这个命令不会直正的转换,你可以看到转换前后的对比。如果要直正的转换要加上参数 --notest
convmv -f GBK -t UTF-8 --notest *.mp3
-f 参数是指出转换前的编码,-t 是转换后的编码。这个千万不要弄错了。不然可能还是乱码哦。还有一个参数很有用。就是 -r 这个表示递归转换当前目录下的所有子目录。
三、更好的傻瓜型命令行工具enca,它不但能智能的识别文件的编码,而且还支持成批转换。
1.安装
$sudo apt-get install enca
2.查看当前文件编码
enca -L zh_CN ip.txt
Simplified Chinese National Standard; GB2312
Surrounded by/intermixed with non-text data
3.转换
命令格式如下
$enca -L 当前语言 -x 目标编码 文件名
例如要把当前目录下的所有文件都转成utf-8
enca -L zh_CN -x utf-8 *
enca -L zh_CN file 检查文件的编码
enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码
enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样,很简单吧。
其实还可以用notepad++转换,notepad++转换非常简单,在windows中,使用Notepad++打开文件格式以后,选择“格式”工具栏,然后可以选择转换为某个格式
相关推荐
Android NDK使用Iconv进行编码转换,可以在Unicode、GBK、UTF-8之前互转
iconv 转换字符 编码转换 utf8 gbk unicode
iconv 可以转换大文件编码转换,不产生乱码。里面有个简单的转码教程,更多功能需要自己挖掘
win_iconv - 编码转换工具,下载后解压,复制iconv.exe到C:\Windows\System32,即可使用。
iconv是知名的开源跨平台编码转换库,iconv.exe是iconv库在windows下的命令行工具,iconv.exe的一般用法:iconv.exe -f gbk -t utf-8 gbk.txt > utf-8.txt。其中 -f gbk 指明转换前的文件编码是gbk,-t utf-8 指明...
通过iconv库函数,对中文编码进行转换
例://把 从gb2312编码转换到 UTF-8 编码=iconv("GB2312","UTF-8",)安装到PHP要使用iconv函数,PHP编译时必须跟上: --with-iconv[=DIR]. Note to Windows® Users: In order to enable this ...
iconv函数很强大,可以windows不带这个东西,不知道哪位大神在win下重写了iconv,很好很强大,内附使用示例
基于gec6818语音识别系统(源代码+项目视频)Linux项目、汉字显示、录音、base64tcp文件传输、iconv字符编码转换、alsa声卡 哔哩哔哩项目展示视频:https://www.bilibili.com/video/BV1Dv411C7cZ/ 源码+库资源+设计...
在Linux下有个iconv.h头文件,里面是对编码转换处理的封装。但在windows下是没有这个头文件的。这里有三个文件,高手编写,用在windows下:iconv.h,iconv.dll和iconv.lib,导出库,就可以用iconv.h了。用法与Linux下...
使icon.lib实现编码转换
apr-iconv linux 编译成功 apr-iconv linux 编译成功 apr-iconv linux 编译成功 apr-iconv linux 编译成功 apr-iconv linux 编译成功
iconv-lite - 纯javascript转换字符编码
iconv编码转码工具
windows版 具体用法: -f From CodePage 源编码 -t To Codepage 目标编码 -s SubDirectory 递归检索子目录 -v Verbose 显示转化日志 eg: iconv *.txt -p .\ -f gb2312 -t utf-8 -v -s
iconv(http://www.gnu.org/software/libiconv/)是一个开源的字符编码转换库,可以“方便”的完成几乎所有的编码转换工作。
易语言iconv.fne支持库中文名为易语言编码转换支持库,本易语言支持库在转换编码时使用 GNU libiconv 1.9.1版,支持现有绝大多数编码和字符集。易语言iconv.fne支持库为一般支持库,需要易系统3.7版本的支持,需要...
gcc编译,内含已经编译好的32位和64位iconv。版本是1.16。 用Visual Studio IDE环境开发者要调用gcc的库需要用LoadLibrary GetProcAddress载入函数。
iconv字符集转换库