`
文章列表
1.背景:之前公司客服部门有个查看游戏用户行为记录的需求,开始我给他们做了个hive的接口,可以暂时满足需求,但是查询速度太慢,得一分钟出结果。 后来我在想能不能用hbase快速查询出用户路径。 查询条件有通行证账号、行为类型、时间范围。 2.设计方案:用hbase的scan接口,hbase的key设计成 通行证账号_行为类型_时间 用如下方式查询:scan 'hbase_gameCenter_log',{COLUMNS =>['oneline:guid','oneline:report'],LIMIT =>10, STARTROW => 'u52fa532aae9dc_log ...
在基于hive的数据仓库中,每个维度有很多概念分层的场景下,维度和度量的上线和下线在mysql中配置显的很重要。 这个hive工具适用于任意多维度,任意多度量值计算。 使用方法很简单。 用附件中的三个mysql表来配置,然后执行shell程序,从而实现任意hive表向任意mysql表计算并写数据。 欢迎试用拍砖。

spark使用总结

1. RDD:Resilient Distributed Dataset 弹性分布数据集 http://developer.51cto.com/art/201309/410276_1.htm 2.spark-shell 的使用 ./spark-shell --driver-library-path :/usr/local/hadoop-1.1.2/lib/native/Linux-i386-32:/usr/local/hadoop-1.1.2/lib/native/Linux-amd64-64:/usr/local/hadoop-1.1.2/lib/hadoop-lzo-0.4.17-SNAP ...
1.创建hadoop组的用户 useradd -d /home/chaobo -m chaobo -g hadoop hadoop fs -mkdir /download/hadoop/tmp/hadoop/mapred/staging/chaobo hadoop fs -chown -R chaobo:hadoop /download/hadoop/tmp/hadoop/mapred/staging/chaobo hadoop fs -mkdir /tmp/hive-chaobo hadoop fs -chown -R chaobo:hadoop /tmp/hive-chaobo hado ...
压缩包里是我的操作记录,有的地方可能需要根据实际情况微调。
1.用hive语句 describe extended f_gameCenter_user_login_out_day partition(dt = '2014-03-19'); 2.用hive元数据库mysql查询 select a.LOCATION from SDS a left join PARTITIONS b on (a.SD_ID=b.SD_ID) left join TBLS c on (b.TBL_ID=c.TBL_ID) where c.TBL_NAME='f_gamecenter_user_login_out_day' and b.PART_NAME='dt=2014-0 ...
1.uname -a 查看服务器位数 2.ifconfig linux 查看ip windows下 是ipconfig 3.ps -aux 中STAT的含义 D 不可中断 Uninterruptible(usually IO) R 正在运行,或在队列中的进程 S 处于休眠状态 T 停止或被追踪 Z 僵尸进程 W 进入内存交换(从内核2.6开始无效) X 死掉的进程 S+说明程序在后台运行,位于后台的进程组 4.shell wget php fopen 5. sar -u 2 10                  -- 即每隔2秒检察一次,共执行20次。 du -h --max-dept ...
1.hive 数据类型 http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html 2.substr('abc',0,2) = ab mysql 是从1开始的 select * from online_server where substr(count_time,1,10)='2011-12-11' and (server_name='iphone_onlines' or server_name='symbian_onlines' or server_name='gtalk_onlines' or server_name= ...
废话不说,代码如下: import java.io.IOException; import java.lang.reflect.Type; import java.util.Iterator; /*import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;*/ import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io ...
1.使用场景 (1.适用于大数据量的ip地域分布场景。 (2.python程序和ip库见附件。 (3.稍作改动,可用于hive中。 2.使用方法: python findarea.py --dealListFile=test_ip_dealListFile_20130930.txt --resultWriteFile=test_ip_resultWriteFile_20130930.txt -n 0 --ipSlipListFileInt=ip.txt 3.使用说明: (1.这个程序可以计算ip所属的国家、(中国的支持)省份、(中国的)电信商,处理完会加到原来文件行的末尾。 (2.程序有四个 ...
Global site tag (gtag.js) - Google Analytics