获取字符长度的正确姿势

huangyunbin

浏览: 2570101 次
性别:
来自: 广州

最近访客更多访客>>

cht的大摩托

xiaoxiaoHer

zzqfsy

为了ta

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java基础

public static void main(String[] args) throws UnsupportedEncodingException {
    String a="\uD864\uDD00";
    System.out.println(a.length()); //结果是2
    System.out.println(a.codePointCount(0, a.length())); //结果是1  这个才要正确姿势
    System.out.println(a.getBytes("utf8").length);  //结果是4
}

这里的\uD864\uDD00 ，对应的中文是参照https://segmentfault.com/q/1010000003757947

length 为什么会不对呢，length其实是char数组的长度。char是16位，最多也就是能表示65536个字符，中文都不只65536个，所以一个char是表示不了一个中文的。
更具体来说，char是 UTF-16 编码的结果，UTF-16其实也是变长的，一个到两个字符，有的时候会两个char表示一个字符

有的人说可以用getBytes("utf8")，这个也是很不靠谱的，虽然多数中文的结果都是3，但是有少部分是4的。对于非中文更加可能是1或者2

所以获取字符个数应该用codePointCount。
这UTF-16的编码规则，超出一个char的时候，是有特殊表示的，
具体地说保留了 D800-DFFF 共 2048 个位置：

D800-DBFF为高位 1024

DC00-DFFF 为地位 1024

1024*1024 = 一百万够用了

static int codePointCountImpl(char[] a, int offset, int count) {
    int endIndex = offset + count;
    int n = count;
    for (int i = offset; i < endIndex; ) {
        if (isHighSurrogate(a[i++]) && i < endIndex &&
            isLowSurrogate(a[i])) {
            n--;  //这里是重点，有高地位的时候减1，做了修正
            i++;
        }
    }
    return n;
}

public static boolean isHighSurrogate(char ch) {
    // Help VM constant-fold; MAX_HIGH_SURROGATE + 1 == MIN_LOW_SURROGATE
    return ch >= MIN_HIGH_SURROGATE && ch < (MAX_HIGH_SURROGATE + 1);
}

public static final char MIN_HIGH_SURROGATE = '\uD800';

public static final char MAX_HIGH_SURROGATE = '\uDBFF';

可以看到codePointCount 的原理其实就是对于UTF-16的高地位（两个char的情况）做了修正的

0
顶

1
踩

分享到：

tomcat 404的解决--坑爹的java版本

2017-05-23 16:09
浏览 1075
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论