`
113.com
  • 浏览: 76918 次
  • 来自: 广州
社区版块
存档分类
最新评论

按字节截取含有中文汉字的字符串

    博客分类:
  • java
 
阅读更多

Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: 
     "1ac" .length () == 3
     "你好a" .length () = 3
但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
请编写函数: 
     public static  String leftStr ( String source,  int  maxByteLen )
  从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW" ;
或者,当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多截取一个byte)。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "我" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW爱" ;

  一种做法是依次判断每一个字符是否为中文。(参考http://zangweiren.javaeye.com/blog/216005 中的四)

  在此考虑另一种解决办法。因为汉字只涉及到最后一个字节,当最后一个字节是汉字的前半个字节时需要特殊处理,所以就围绕“怎么判断最后一个字节是汉字的前半个字节 ”进行考虑。单独来讲,是无法判定一个字节到底是不是一个汉字的前半个字节,但可以判断出是否是字串中某个汉字的前半个字节。汉字为:“/u4e00-/u9fa5 ”(未考证)

  解决办法就是:将截取的最后一个字节与紧跟在后面的一个字节进行组合(考虑后面已经没字节的情况),判断组合出来的一个字符是否包含在原字符串中:如果包含,则说明是前半个汉字;如果不包含,则说明不是前半个汉字。(应该也无法区分汉字、韩文、日文)。

  以“我LRW爱JAVA”为例。其getBytes()(使用默认的字符集)得到的二进制码为:CED2 4C 52 57 B0AE 4A 41 56 41
  截取前1个字节时,为“CE”,那么就判断“CED2”是否是前半个汉字,用“CED2”构造一个字符出来(亦使用默认字符集),判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”,显然包含在原字串中,所以是前半个汉字。
  截取前2个字节时,为“CED2”(就是“我”字),那么就判断“D2”是否是前半个汉字,用“D24C”构造一个字符出来(亦使用默认字符集),发现构造出来的字符是“襆”,显然不包含在原字串中,所以不是前半个汉字。

  判断出来了最后一个字节是否为前半个汉字后就很容易处理了,一种是舍弃最后一个字节,一种是加多一个字节,以便保证汉字的完整。

  所有过程均采用默认字符集,绕过了不同字符集编码不同的影响。

完整源码如下:

    /**
      * Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,
      * 例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: "1ac".length()==3;  "你好a".length()=3;
      * 但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
      * 请编写函数:
      *     public static String leftStr(String source, int maxByteLen)
      * 从source中取最大maxByteLen个byte的子串。
      * 当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,-1)=="";
      *     leftStr(str,2,-1)=="我";
      *     leftStr(str,4,-1)=="我LR";
      *     leftStr(str,11,-1)=="我LRW";
      * 当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多取一个字节)。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,1)=="我";
      *     leftStr(str,2,1)=="我";
      *     leftStr(str,4,1)=="我LR";
      *     leftStr(str,11,1)=="我LRW爱";
      *
      @param  source 原始字符串
      @param  maxByteLen 截取的字节数
      @param  flag 表示处理汉字的方式。1表示遇到半个汉字时补全,-1表示遇到半个汉字时舍弃
      @return 截取后的字符串
      */
     public static  String leftStr ( String source,  int  maxByteLen,  int  flag ){
         if ( source ==  null  || maxByteLen <=  0 ){
             return  "" ;
         }
         byte []  bStr = source.getBytes () ;
         if ( maxByteLen >= bStr.length ) return  source;
         String cStr =  new  String ( bStr, maxByteLen -  1 2 ) ;
         if ( cStr.length ()  ==  && source.contains ( cStr )){
             maxByteLen += flag;
         }
         return new  String ( bStr,  0 , maxByteLen ) ;
     }

分享到:
评论

相关推荐

    关于java按字节截取带有汉字的字符串的解法

    关于java按字节截取带有汉字的字符串的解法.不错的一个程序。我也是从高手那拿来的,觉得不错,传上来给感兴趣的朋友学习学习。

    中英文字符串按字节截取

    截取含有中英文的字符串,按字节进行截取,当出现汉字时不能截取半个汉字要把汉字补全。

    字符串截取(按字节)

    字符串截取,按字节截取字符串,截取字符串帮助类

    java按字节截取带有汉字的字符串的解法(推荐)

    下面小编就为大家带来一篇java按字节截取带有汉字的字符串的解法(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,String类是按字符截取 的,例如"中国abc".substring(1,3),将返回...要求按字节截取,一个英文字符当一个字节,一个中文字符当两个字节.  

    JAVA按字节截取字符串(适用于Unicode)

    7. 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉...

    C#(.net)中按字节数截取字符串最后出现乱码问题的解决

    最近需要用到按字节数截取字符串。在网上找了很多方法。 Encoding.Default.GetString采用的Default Encoding.UTF8.GetBytes采用的是utf-8编码。这样当然是乱码。尤其出现中文时候。 对这类数据处理当然要用统一的...

    对字符进行截取

    oracle中的substr是针对字节进行截取,当处理对中文汉字时,非常不方便,通过对其封装,可以实现对字符进行截取。

    字符串截取

    根据指定字节数截取字符串,当指定处为中文第一个字节时少截取一个字符,当长度大于指定截取长度时,截取后在字符串末尾追加指定字符串 * 这里添加了字符串的编码,因为页面的编码不同,字符串所占字节

    字符串 截取

    指定截取字节数,截取字符串,但是不能出现半个汉字的情况,例如: 字符串"喊sd中d王",长度2byte为:喊,长度3byte为:喊s,长度4byte为:喊sd,长度5byte为:喊sd,长度6byte为:喊sd中

    php字符串截取中文截取2,单字节截取模式

    //中文截取2,单字节截取模式 function cn_substr($str,$slen,$startdd=0){  $restr = “”;  $c = “”;  $str_len = strlen($str);  if($str_len &lt; $startdd+1) return “”;  if($str_...

    自定义EL函数解决JSTL标签不足之处——按字节长度截取字符串

    做过大型网站前台的Web开发程序员最头疼的事情就是前台首页的布局,这其中最最头疼的就是标题字符的截取的问题,虽然有fn:substring,但表现率以及对中文的支持均不够完善,其实最终还是归结为客户要求太高了,不过...

    PHP中使用substr()截取字符串出现中文乱码问题该怎么办

    但字符串只要出现中文字符,就有可能导致PHP substr中文乱码,因为中文UTF-8编码,每个汉字占3字节,而GB2312占2字节,英文占1字节,截取位数不准确,substr()硬生生地将一个中文字符“锯”成两半,造成断开的字符会...

    TIA博途中字符串转换相关指令的使用方法(一).docx

    TIA博途中字符串转换相关指令的使用方法(一)

    拆分带中文字符串.zip

    7、编程:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我...

    Java 按照字节来截取字符串的代码(不会出现半个汉字)

    Java 按照字节来截取字符串的工具,不会出现半个汉字。一个中文两个字节,一个英文字符只占 1 个字节** 1. 通常我们用于前端显示的时候,防止标题过长

    Js自动截取字符串长度,添加省略号(……)的实现方法

    JavaScript字符串处理函数,根据定义的长度截取字符串,超出部分裁掉追加……,很多时候网页上显示的内容需要缩成“…”该方法用于处理字符串显示固定长度,超长部分用“…”代替: /**参数说明: * 根据长度截取...

    SQL 截取字符串应用代码

    字符串截取函数,只限单字节字符使用(对于中文的截取时遇上奇数长度是会出现乱码,需另行处理),本函数可截取字符串指定范围内的字符。

    go语言按显示长度截取字符串的方法

    根据显示长度截取字符串,之前php用的utf8编码,10个英文和10个汉字的显示长度差距太大,按字节截取的话又会出错出现截取半个汉字的情况,所以写了这两个函数. 这两天在折腾golang,所以就用golang重写了着连个函数.代码...

Global site tag (gtag.js) - Google Analytics