Linux先使用grep -r $'\xEF\xBB\xBF' * |grep .php 查看文件编码,然后是用vi命令打开文件,然后在使用:set nobomb,文件编码修改完成。
以下附有BOM的简单介绍:
Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明:
在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
Windows就是使用BOM来标记文本文件的编码方式的。
另外unicode网站的FAQ-BOM详细介绍了BOM。官方的自然权威,不过是英文的,看起来比较费劲。
UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM。我在研究Firefox的时候就知道,在Firefox早期的版本里,扩展是不能有BOM的,不过Firefox 1.5以后的版本已经开始支持BOM了。现在又发现,PHP也不支持BOM。
PHP在设计时就没有考虑BOM的问题,也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在<?或者<?php后面的代码才会作为PHP代码执行,所以这三个字符将会直接输出。如果遇到header(),session(),cookie()等问题,将会导致乱码或显示白屏等问题.
常见编码的BOM
UTF-8的BOM
UTF-8的BOM是三个字节:0xEF, 0xBB, 0xBF,这三个字节在UTF-8编码里是没有意义的。
UTF-8的BOM是不推荐使用的,但MS仍然在使用,因此导出UTF-8时,不加这三个字节,MS打开就会乱码。
UTF-16的BOM
UTF-16的Big endian的BOM是:0xFE, 0xFF。
UTF-16的Littal endian的BOM是: 0xFF, 0xFE。
GB18030的BOM
GB18030的BOM是:0x81,0x31,0x95,0x33。
如果你遇见过这样的问题: 非法字符: \65279
今天可以帮你解决!
众所周知,在跨程序的工程中,统一编码是至关重要的,而目前最普遍的则是统一采用“utf8”编码方案。
但是在采用utf8方案的时候,请注意编辑器的自作聪明。
比如editplus。
原因就在于某些编辑器会往utf8文件中添加utf8标记(editplus称其为签名),它会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM),它的表示的是 Unicode 标记(BOM)。
因此要解决这个问题的关键就是把这个标记选项去掉。
首先用editplus打开这个文件,从Doucument菜单中选择Permanet Settings,有三个分类,分别是General, File, Tools.点击File,右边会有一项是 UTF-8 signature: 选择 always remove signature. 点击OK
中文版本的 editplus 下操作的菜单结构如下: 文档->参数设置->文件->UTF-8签名->总是移除签名->确定
这样就设置了UTF-8格式不需要在文件前面加标记。
最后把文件另存为utf-8格式就好了.
在程序中读取文件时做下判断,看是否需要去掉第一行的第一个char,代码如下:
InputStreamReader FS = new InputStreamReader(in, "UTF-8");
BufferedReader SR = new BufferedReader(FS); // 文件输入流为
String strLine = SR.readLine();
if (strLine.length()>1){
if ((int)strLine.charAt(0)==65279){
strLine=strLine.substring(1);
}
}
相关推荐
Java解决UTF-8的BOM问题,使用“UnicodeInputStream”、“UnicodeReader”。
1.首先介绍一下本人应用场景,qt...3.此小工具主要针对utf-8编码文件,能够批量添加删除BOM,无识别转化ASIIC功能,添加BOM时,如果文件是utf-8(BOM),则跳过,删除亦然 4.当不选中添加删除时可用于文件数量统计。
由于项目需要,需要字符串转为XML文件,直接用Fileopen进行EncodingUTF8编码后,发现文件实际为UTF-8 BOM编码 问度娘发现有相同问题,但解决方式是利用新建一个UTF-8的TXT文件后,再进行COPY加内容。感觉这样操作...
文件的编码格式需要转换,gb2312,utf,utf-8等编码格式的相互转换等
当上传文件存在中文时,修改上传文件编码为utf-8-bom
UTF-8文件批量去除BOM标记,不用再一个一个的删除bom标记了。
口香糖将添加到文件从维基百科: Unicode标准允许使用UTF-8中的BOM,但既不需要也不建议使用它。 字节顺序在UTF-8中没有意义。 Gulp会删除BOM表,因为它是无用的。 这是针对一些确实需要它的愚蠢工具。 除非确实需要...
拆箱从文件中删除 UTF-8 BOM 标记的工具。为什么UTF-8 BOM 在常见情况下有问题且无用。 许多工具不支持 BOM 标记; 例如命令行差异工具。 支持 UTF-8 的工具,无论如何都支持它而无需标记。 除了使我们的差异输出令...
NULL 博文链接:https://baobeituping.iteye.com/blog/1280825
php 字符编码转换类,支持ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom 互相转换。
压缩包内包含 ecj-4.6.2.jar 和 Util.class两个文件 使用说明: 1. 如果你的IDEA是2017.2.2版本,那么直接把ecj-4.6.2.jar放到你的IDEA安装目录下lib文件夹中替换原文件即可 2. 如果你是其他版本的IDEA,那么用压缩...
压缩包内包含 ecj-4.6.2.jar 和 Util.class两个文件 使用说明: 1. 如果你的IDEA是2017.2.2版本,那么直接把ecj-4.6.2.jar放到你的IDEA安装目录下lib文件夹中替换原文件即可 2. 如果你是其他版本的IDEA,那么用压缩...
delphi 6-XE读取ANSI,unicode,unicode big,utf-8,utf-8BOM文件,保存utf8
添加或删除 xml CSV UTF-8 bom头文件
去除bom头小工具,工具使用方法: 选择要遍历的文件夹,输入...勾选ANSI转为UTF-8,则会将相应格式但编码为GB2312,GBK,GB18030的文件转为无BOM的UTF-8文件 请确保文件可写!使用前请做好备份,作者不承担任何法律责任
安装 $ npm install --global strip-bom-cli用法 $ strip-bom --help Usage $ strip-bom <file> > <new> $ cat <file> | strip-bom > <new> Example $ strip-bom unicorn.txt > unicorn-without-bom.txt有关的此模块...
批量utf文件转utf8-bom
NULL 博文链接:https://itsoul.iteye.com/blog/1488513