【转载】sed如何删除脚本中的所有汉字

nigelzeng

浏览: 599734 次
性别:
来自: 杭州

最近访客更多访客>>

linuxfor

u012363178

hua165

shiqingshun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

转载（技术）

sed 删除中文

今天有网友问我一个问题，问题是他要在一个脚本中删除所有的中文汉字。这个问题一下子使我有点犯难，在脚本中删除一两个汉字，那我是手到擒来，匹配所有汉字倒是第一次。于是净下来仔细想了一下，汉字在计算机系统里是按照一定的编码格式表示的，就是我们常说的如：GB2312、GB18030等，那么这个问题就应该好解决了，只要符合这个编码格式的就都是汉字了。于是上网搜索汉字的编码格式。得出一下结果：
从GB2312-1980编码开始，汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开，所有汉字编码的每个字节的第一位都是1。例如：“啊”字的编码为0xB0A1。GB2312的汉字编码规则为：第一个字节的值在0xB0到0xF7之间，第二个字节的值在0xA0到0xFE之间。GB12345和GB13000是对GB2312-1980的扩充，所有已经包含在GB2312中的汉字编码不变，另外增加更多的码位。其编码规则大致为：第一个字节的值在0x81到0xFE之间，第二个字节的值在0x40到0xFE之间。由于GB13000是对 GB2312的扩展，所以也被成为GBK。
那剩下的问题就简单了，我用sed把符合这些编码格式的用空替代不就解决了吗。
sed的命令表达式如下：
＃sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
执行一下发现有问题，原来系统的编码设置问题，更新一下：
＃LANG=C sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
C代表英文环境 ASCII 编码格式，再次运行，一切OK。
呵呵，后来有查了一下网络关于这个的文章，发现已经有了，思路和我的一样。那个帖子地址如下：
http://bbs.chinaunix.net/viewthread.php?tid=1324396&extra=&page=1
高人们真是无处不在啊。

本文转载自：

crown_prince 的BLOG

http://7056824.blog.51cto.com/69854/178940

分享到：

用sudo cat追加文件出错 | can't identify protocol问题的定位和解决

2012-10-11 19:07
浏览 3365
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论