`
tobyqiu
  • 浏览: 39229 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表

hbase rowkey设计

hbase的设计:1.每一行数据必定是给某一个应用所使用的.即有一个appkey 如 942382.rowkey 就应该是这样了 concat_ws('\u0004' --使用 \u0004 作为每个字段分隔符 ,concat(substr(md5(concat('app_name','94238')),1,4),':md5') --使用md5打散不同app的存放位 ...
写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。 如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。 问题分析   select a.*, b.cat_name from dim_auction a join dim_category b on a.cat_id=b.cat_id  Join会被Hive解释成一个MapReduce任务时,Map端输出的记录是以Jo ...
hbase 不像传统数据库.区别主要是 orcl 里面 建表 要指定多少列,数据类型 等.hbase 里面 也有建表的概念,但是只不过定义了一个表名,里面的列是不定义的.任何数据都可以往表里面塞,换句话,如果我忘记了 塞了什么,都没地方去查.这 ...
  set hive.exec.compress.intermediate=false; set mapred.output.compress=false; create table a as select * from dimdate; Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880] Job 0: Map: 1 Cumulative CPU: 1.88 sec HDFS Read: 6083 HDFS Write: 90138 SUCCESS ...
    翻译自 https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation%2C+Cube%2C+Grouping+and+Rollup这篇文章是用来描述优化集合函数 group by 的, 这些函数是0.10版本以后才被添加进hive的,并且在0.11中做了优化。GROUPING SETS clause (Grouping的用法)GROUPING SETS子句中的GROUP BY允许我们在同一个记录集指定多个group by。所有的分组集子句在逻辑上可以表现为多个GROUP BY的UNION连接查询。Tab ...
原文 https://cwiki.apache.org/confluence/display/Hive/StatsDev   hive的统计信息搜集 动机 范围 执行 用法 变量配置 全新的表 现有的表 例子 Motivation 动机 统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优化函数,可以方便的比较不同的查询方案,并且从中进行选择。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据,而不需要通过运行执行计划.举几个例子,得到用户的年龄分布,人们使用的top1 ...
转帖翻译 http://www.iteblog.com/archives/1014 原文 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 一、定义   ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式 ...
这次使用 压缩,因为压不压相差10倍呢,但是不使用 sequencefile ,因为打算在hive 中使用 RCFIle来存数据, --compress --compression-codec org.apache.hadoop.io.compress.BZip2Codec  使用的Bzip 当然hive的表也自动存为Bzip的.  但是 如果hive 使用RCFile 存储, create table table_rcfile STORED AS RCFile as select * from table_bzip;  会报错  Failed with excep ...
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin目录结构 Join Optimization ----Join 调优 Improvements to the Hive Optimizer ----Hive的优化 Star Join Optimization ----星型结构的优 ...
直接就总结了   1. join 中不能包含不等的操作( 大于,小于,不等)   select * from a inner join b on a.a>b.a 2.Join 中也不能有 OR 这种谓词   3.小表在前,大表在后 4.但是也可以颠倒,但是要用 STREAMTABLE来指定那个是大表 SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) 5.join比where的优 ...
如果数据库类型是 date类型的就比较麻烦了,直接搞进hive 不行,因为hive只有timestamp,而去format还是  yyyy-mm-dd hh:mm:ss的 有2个办法,先导入临时表 ,临时表是string的类型(String的format是 yyyy-mm-dd),然后再往正式表里插 insert ...
1.修改配置   /home/sqoop-1.4.4/conf/sqoop-env.sh export HADOOP_COMMON_HOME=/home/hadoop-2.3.0 export HADOOP_MAPRED_HOME=/home/hadoop-2.3.0 #export HBASE_HOME=/usr/local/hbase export HIVE_HOME=/home/hive-0.10.0 #export ZOOCFGDIR=/usr/local/zookeeper  2.加入配置 /etc/profile export J ...
使用压缩来看看   sqoop:000> update job --jid 1 Compression format:   0 : NONE   1 : DEFAULT   2 : DEFLATE   3 : GZIP   4 : BZIP2   5 : LZO   6 : LZ4   7 : SNAPPY Choose: 3 Output directory: /home/dimDateGZip Job was successfully updated with status FINE   使用Gzip 同样的job 跑出来的不一样   [roo ...
连接建好 就开始建Job了 sqoop:000> create job --xid 1 --type import Creating job for connection with id 1 Please fill following values to create new job object Name: dimDate   Database configuration   Schema name: dbo Table name: dimDate Table SQL statement: Table column names: Partition colum ...
使用 sqoop-1.99.3-bin-hadoop200 配置如下1.解压tar -xvf sqoop--bin-hadoop.tar.gz 2.加入配置文件 server/conf/catalina.properties 中的common.loader 属性加入hadoop2的lib因为hadoop_home 下的lib是空的 所以指向 /home/hadoop-2.3.0/share/hadoop/common/*.jar/home/hadoop-2.3.0/share/hadoop/common/lib/*.jar/home/hadoop-2.3.0/share/hadoop/yar ...
Global site tag (gtag.js) - Google Analytics