利用cpdetector判断文本文档的编码

fandayrockworld

浏览: 308912 次
性别:
来自: 北京

最近访客更多访客>>

asodifjalskdjf

yanmh

dongguangming88

duanhengbin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java基础

文本文档不包含文档的编码信息，然而有些时候，我们必须要获得某个文件的编码，这时候怎么办？

1、自己造轮子，通过对各种编码的判断，确定其所属编码。

这种方式难度较大，而且对编码知识的要求较高。

2、借助其他已经存在的工具。

在网上找到了这个东西：cpdetector。看了下他自己的介绍，感觉其初衷是为抓取html而不能确定其编码而写的，里面有的方法可以直接通过传入url的方式确定其编码。

下面是个通俗的例子：

package encoding;

import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.ByteOrderMarkDetector;
import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.UnicodeDetector;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.net.MalformedURLException;


public class CPDetectorTest {
	public static void main(String[] args) {
		System.out.println(getEncoding(new File("c:/test.txt")));
	}
	
	public static String getEncoding(File document) {

		CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
		
	    detector.add(new ByteOrderMarkDetector()); 
	    detector.add(ASCIIDetector.getInstance());
	    detector.add(UnicodeDetector.getInstance());
		
		boolean ret = false;
	    java.nio.charset.Charset charset = null;
	    try {
			charset = detector.detectCodepage(document.toURL());
		} catch (MalformedURLException e1) {
			e1.printStackTrace();
		} catch (IOException e1) {
			e1.printStackTrace();
		}
	    return charset.toString();
	}
}

注意其中的这三行：

detector.add(new ByteOrderMarkDetector()); 
detector.add(ASCIIDetector.getInstance());
detector.add(UnicodeDetector.getInstance());

这是加载其内置的检测器，通过名字可以看出来其所能检测的字符集。

同时，上面的代码不能检测出gb2312等编码，没仔细找到底有没有gb2312等的检测器。

如果不能检测出的话，会返回一个void。

分享到：

(MaxProcessMemory – JVMMemory – Reser ... | HTTP1.0协议中文版

2012-01-13 18:45
浏览 4137
评论(0)
论坛回复 / 浏览 (0 / 3431)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用cpdetector判断文本文档的编码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用cpdetector判断文本文档的编码

评论

发表评论

相关推荐

获取网页所用编码

基础知识一大堆之Thread：join

(MaxProcessMemory – JVMMemory – ReservedOsMemory) / (ThreadStackSize) = Number o

Class加载

eclipse 启动不起来（不能创建VM）

java各种情况下读取文件时的路径问题

java.io.IOException: java.io.IOException: error=24, Too many open files

SpringJdbc queryForList 不加查询条件

程序中的File及其子类是以工程根目录为起点的

改变图片的宽和高

切割图片

java 图片压缩

初学Java必会的几道练习题(上)

正确理解UNICODE UTF-8等编码方式

java时间格式大全

最近访客更多访客>>