今天有网友问我一个问题,问题是他要在一个脚本中删除所有的中文汉字。这个问题一下子使我有点犯难,在脚本中删除一两个汉字,那我是手到擒来,匹配所有汉字倒是第一次。于是净下来仔细想了一下,汉字在计算机系统里是按照一定的编码格式表示的,就是我们常说的如:GB2312、GB18030等,那么这个问题就应该好解决了,只要符合这个编码格式的就都是汉字了。于是上网搜索汉字的编码格式。得出一下结果:
从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开, 所有汉字编码的每个字节的第一位都是1。例如:“啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间, 第二个字节的值在0xA0到0xFE之间。GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不 变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对 GB2312的扩展,所以也被成为GBK。
那剩下的问题就简单了,我用sed把符合这些编码格式的用空替代不就解决了吗。
sed的命令表达式如下:
#sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
执行一下发现有问题,原来系统的编码设置问题,更新一下:
#LANG=C sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
C代表英文环境 ASCII 编码格式,再次运行,一切OK。
呵呵,后来有查了一下网络关于这个的文章,发现已经有了,思路和我的一样。那个帖子地址如下:
http://bbs.chinaunix.net/viewthread.php?tid=1324396&extra=&page=1
高人们真是无处不在啊。
本文转载自:
crown_prince 的BLOG
http://7056824.blog.51cto.com/69854/178940
分享到:
相关推荐
sed 和 awk 都是 Linux 下常用的流编辑器,他们各有各的特色,本文并不是要做什么对比,而是权当好玩,把《SED 单行脚本快速参考》这文章,用 awk 做了一遍~ 至于孰好孰坏,那真是很难评论了。一般来说,sed 的命令...
SED单行脚本快速参考(Unix 流编辑器) sed命令使用说明
英文原版《 HANDY ONE-LINERS FOR SED》,都是一些使用sed写单行脚本的技巧!
Sed 单行脚本命令 快速参考 pdf 中文
SED单行脚本快速参考
# 在每一行后面增加一空行 sed G # 将原来的所有空行删除并在每一行后面增加一空行。 # 这样在输出的文本中每一行后面将有且只有一空行... # 将第一个脚本所产生的所有空行删除(即删除所有偶数行) sed 'n;d' ...
sed中文指南 详细介绍了SED的用法与实例
shell编程中经常用到sed命令,本文详细介绍了shell常用命令sed详细用法
液晶屏驱动SED1520的中文资料.SED1520液晶中文数据手册.
linux脚本编程中的sed详解,具体解释了linux中的sed命令的用法,例如可以对指定文本中的指定字符串进行替换等操作!
sed 常用单行命令!
英文标题:USEFUL ONE-LINE SCRIPTS FOR SED (Unix stream editor) 原标题:HANDY ONE-LINERS FOR SED (Unix stream editor) 整理:Eric Pement – 电邮:pemente[at]northpark[dot]edu 版本5.5 译者:Joe Hong – ...
SED1335中文数据手册,点阵液晶屏的驱动中文资料
本文用一个个简短的例子展示sed每一个命令的用法,简单易懂,希望对你有些帮助。 网上大多资料都是英文版的,好多人看着不打舒服,因此写此题集,助你快速提升对sed的驾驭能力。
linux和unix的文本处理的优秀工具,手册为简体中文,通俗易懂,是学习awk和sed的好教程。
Sed and Awk 单行脚本快速处理字符或者文本
Sed与awk_中英文高清版
sed和awk具有相同的命令行语法,以脚本的形式接收用户的命令。因为所有这三个程序都使用UNIX正则表达式,因此书中用一章的篇幅来介绍UNIX的正则表达式语法。 然后,本书介绍如何编写sed脚本。从编写几行简单的脚本...
网站: : 下载/安装Sedsed可作为pip包提供,只需安装即可: pip install --user sedsed与Python 2.7和Python 3.x兼容许可证:GPLv3以获取每个版本中的更改列表备选:sedsed是单个文件应用程序,因此您也可以下载并...