`
ftj20003
  • 浏览: 130476 次
  • 性别: Icon_minigender_1
  • 来自: ...
社区版块
存档分类
最新评论

一道字符串截取的编程题

    博客分类:
  • Java
阅读更多
    最近接触到一道字符串截取的编程题:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个"。
   
    了解Java的都知道Java中char是用Unicode-16表示的,char型占两个字节。通常采用Unicode-16的编码,一个代码单元就可以表示一个字符,极特殊的辅助字符需要一对代码单元来表示。String的length()方法返回的就是代码单元的数量。问题就在于汉字也好,普通字母数字也好基本上都是一个代码单元就能表示,所以无法区分。但是这些非西欧字符集虽然也是占两个字节,但是西欧字符的高8位是置0的,利用这个性质可以尝试写一个解决方案。
/**
 * @author: yanxuxin
 * @date: 2010-3-10
 */
public class SplitString {

	public static void main(String[] args) {
		splitStr("我ABC", 4);
		splitStr("我ABC汉DEF", 6);
	}

	public static void splitStr(String s, int bytes) {
		int offset = 0; //计算位数偏移量
		int i = 0; //统计实际代码单元数
		for (; i < s.length(); i++) {
			char tmp = s.charAt(i);
			
			int t = tmp & 0xff00; //截取高8位进行判断
			if (t > 0) {
				offset += 2;
			}
			else {
				offset++;
			}
			
			if (offset >= bytes) {
				if (offset == bytes) {
					i++;
				}
				break;
			}
		}
		System.out.println("Result=" + s.substring(0, i));
	}
}

    这里主要利用了int t = tmp & 0xff00截得字符的高8位进行判断,针对汉字这样的方案应该是可行的,如果是一些占有两个代码单元的,还要去使用找代码点的方法进行进一步的分割。
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

Global site tag (gtag.js) - Google Analytics