HBase处理中文字符串 -

qi20088

浏览: 83308 次
性别:
来自: 广州

最近访客更多访客>>

gundammew

jzhfmm

itskyblue

ssydxa219

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

HBase处理中文字符串

博客分类：

hadoop

hbase

摘自：http://blog.csdn.net/pirateleo/article/details/7957109

Author：Pirate Leo
myBlog: http://blog.csdn.net/pirateleo/
myEmail: codeevoship@gmail.com
转载请注明出处，谢谢。
文中可能涉及到的API：

Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/

HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html

Begin！
在设置scan的startRowKey与endRowKey时，经常需要在某个条件字符串后面补充出一个范围。（再比如SingleColumnValueFilter也会用到）

比如：我的条件字符串是“abc”，scan时我需要将下述内容都囊括到我scan的范围内。

abc123

abcdabc

abccca

....

这时候我startRowKey使用“abc”即可，上述字符串按字典序都比“abc”要大，“abc”串c之后的值是0嘛~

而endRowKey最初我使用了“abc~”，因为我查ASCII码表时‘~’是倒数第二个，值为127，足够大，肯定大于上述串中的1、d、c等字符。

这样做，在处理英文数据时就足够了，系统运行正常。

但当我处理中文数据时，中文一般都是以UTF-8格式处理的，一个汉字表示出来类似“0xe6，0xc2，0xe1”。0xe6大于127。所以使用‘~’遇到中文必然悲催。

我的解决方法：

使用UltraEdit，进入十六进制编辑模式，将值改为FF。然后回到文本模式，将刚才的字符复制下来。这个字符应该是一个不可显示的字符，看着好像两个空格的长度。

然后在设置endRowKey时

new String(name + " "); //这里只是示例，引号间就是刚才复制的那个字符。将这个字符串作为endRowKey，果然所有的中文字符就囊括在内了。

另外一定要注意：使用HBase API时不要使用str.getBytes将String转化为byte[] ，而应该使用Bytes.toBytes(str)；同样使用Bytes.toString(bytes);完成逆向转换。

分享到：

大数据性能调优之HBase的RowKey设计 | Java资源大全中文版

2015-11-12 13:44
浏览 690
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HBase处理中文字符串

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HBase处理中文字符串

评论

发表评论

相关推荐

MapReduce程序开发(good)

ZooKeeper典型应用场景一览

Apache HBase 2015年发展回顾与未来展望

搜索技术博客－淘宝

大数据性能调优之HBase的RowKey设计

详细的讲解yarn和mapreduce的内存配置

Hadoop YARN常见问题以及解决方案 任务合理调度分配

Windows下使用Hadoop2.6.0-eclipse-plugin插件

HBase优化案例分析：Facebook Messages系统问题与解决方案

HBase总结（十二）Java API 与HBase交互实例

NoSQL选型及HBase案例详解（hbase结合情景案例分析）

Hbase课程大纲学习路线

基于HBase的海量微博数据高效存储解析

Hadoop 2.0+YARN启动脚本分析与实战经验

windows7+eclipse+hadoop2.5.2环境配置

YARN ResourceManager调度器的分析

Hadoop 新 MapReduce 框架 Yarn 详解

yarn 启动时，nodemanager 成功，但是resourcemanager失败解决

hbase常识及habse适合什么场景

HBase案例设计分析

最近访客更多访客>>

Hadoop YARN常见问题以及解决方案任务合理调度分配