`
安铁辉
  • 浏览: 241597 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表

hive UDAF之cube

之前有想实现在hadoop上面自动cube,并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现,最近项目中需要根据配置自动聚合生成数据,目标结果表格式固定,正好满足自动cube的场景,所以就搞了个demo,还在测试中 package com.taobao.voc.hive.udf; /**   * description :对传入的多个维度的所有组合所对应的度量进行汇总   * @param :dim1,dim2 [... ,dim10] , '度量1,度量2,...度量N '   * @return : 返回一个数组,数组的每一个成员即一条返回记录 ...

svn

svn常用命令 svn add hive_sql/xx.sql svn delete hive_sql/xx.sql 取消本地操作: Svn revert --depth=infinity .
将依赖打入jar包,由于maven管理了所有的依赖,所以将项目的代码和依赖打成一个包对它来说是顺理成章的功能。maven的这个功能之前就用过,但这次使用时忘了细节,只记得用maven的assembly插件,但assembly插件功能强大,可以打zip、war各种包,所以一下子找不到如何将依赖打入jar包了。浪费了一点时间,所以一定要记录一下。 在pom.xml中加入如下配置即可,关键是configuration-descriptorRefs-descriptorRef,这个就表示要将依赖打入jar包。 <plugin> <artifactId>maven-ass ...
钱的债要还的,年终总结走起,谢谢你2013,你好2014 好难,不知从哪说起。2013从变化开始,团队人员变动,工作内容在变,心态在变,方向没变。 心态: 年初有2个一起奋斗的同事,一个回了老家,一个趁年轻出去了,打算闯 ...
逻辑上: Single column 单行索引 Concatenated 多行索引 Unique 唯一索引 NonUnique 非唯一索引 Function-based函数索引 Domain 域索引 物理上: Partitioned 分区索引 NonPartitioned 非分区索引 B-tree: Normal 正常型B树 Rever Key 反转型B树 Bitmap 位图索引 索引结构: B-tree: 适合与大量的增、删、改(OLTP); 不能用包含OR操作符的查询; 适合高基数的列(唯一值多) 典型的树状结构; 每个结点都是数据块; 大多都是物理 ...
今天登陆同事的一台gateway 开始以为hive环境登陆不了了,仔细一看看了下是因为机器很卡,我每次等几秒没登陆就ctrl+c了,看了下是有个java进程cpu:340.4%  mem:14.6% 一般解决方法是通过top命令找出消耗资源高的线程id,利用strace命令查看该线程所有系统调用 1. 通过top命令找到可疑进程PID top 一下 可以看出java进程CPU利用率一直保持100%,稳居不下,找到PID 24138 2. 找出消耗资源最高的线程 top -H -p  29580  可以不用第一步,直接执行命令 top -H ,就可以查看到消耗资源最高的线程 top - 2 ...
hadoop和hive公司内有rpm包,安装很方便,MySQL安装也不麻烦 hadoop安装 http://wiki.aliyun-inc.com/projects/apsara/wiki/yunti1sqa/users 1、在线安装rpm包,也可下载rpm包本地安装 sudo yum install -y yunti-hadoop 2、修改hosts,jb和namenode地址 机器的/etc/hosts里追加hdpsqann和hdpsqajt的解析。如果没有权限,请联系机器的PE 10.97.180.201 hdpsqann 10.97.180.202 hdpsqajt 3、配 ...
昨天一个同事做数据迁移引起一个故障,原因是2张表字符集一个为gbk,一个为utf8,并且join key为vachar类型,导致不能正确索引,导致数据库超时,修改字符集编码后正常。本地重现了一下: 一、搞测试数据,文章最后又脚本 二 ...
本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个 算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的 其实很多时候不需要理论,想也是可以想到的,不过还是总结一下    0.测试表:    drop table songpo_test; create table if not exists songpo_test ( refund_id string, user_id string, ...
【完全转载】http://tomxu.iteye.com/blog/1289216 代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # author: heidanine # file: checkWapIp.py # modified: 2011/03/20 01:40 # ########################################### # 检测外网的Ip,发送到指定邮箱 ########################################### # 初期 ...
1、首先要熟悉sublime api,插件可以用python开发,这个很好,写好代码,保存到默认的目录应该是\SublimeText2\Data\Packages\User下面, 可以按下快捷键Ctrl + ‘ 打开SublimeText的控制台,执行如下命令就可以运行刚刚写的小插件,测试效果 ...

重新安装hadoop

本文介绍hadoop 最简单配置,保证能本地测试自己写的程序,更多配置可参照末尾文章链接。 之前在虚拟机中安装过hadoop hive hbase,电脑重做系统了,本次需要重新安装,虚拟机实在不方便,转cygwin吧,这个东东不错,window上可以用linux的很多东西,本地查看项目的log也很方便,比如 tail -fn 20  xxx.log 可以观察log输出。 一、cygwin安装 安装很简单,和普通软件一样,但是1.7版本有个问题,如下: cygwin 1.7  这个版本修改了文件所有者的属性,到时本地debug报错,不能执行 bash 解决方案: 1、修改/etc/fstab文件 ...
日常开发中,项目环境还是日常环境经常会发生多人调试同一台机器(开发和日常一般就一台),想知道谁在调试最简单是可以在群里吼一下,也可以把这个人‘抓’出来,思路如下: 1、服务器上看下监听端口有哪些ip在链接,一般不会很多,我设置的监听端口是8787 netstat -apn | grep 8787 2、抓到ip在window局域网 ping -a 显示机器名 就能看到是谁的机器了 同样可以用tracert命令是搜索,就是慢点,会尝试很多次 Tracert 工作原理   通过向目标发送不同 IP 生存时间 (TTL) 值的“Internet 控制消息协议 (ICMP)”回应数据包,Tracert ...
求时间差: 天: ROUND(TO_NUMBER(END_DATE - START_DATE)) 小时: ROUND(TO_NUMBER(END_DATE - START_DATE) * 24) 分钟: ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60) 秒: ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60) 毫秒: ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60 * 1000)
前端时间写了一些爬虫程序,经常用chrome看提交的参数什么的,今天周五有点闲,详细看看请求头和响应头都提交了什么参数,顺便温故了下cookies和session来龙去脉,下面是自己收集的各参数的含义: 有的博客说响应头分几个域,什么通用域,请求,响应,Date头域等等……,个人感觉记这些和分类没多大意义,你看见Cache-Control:max-age=0知道什么含义,这才是最根本的,如下: 1、Cache-Control key: Cache-Control,表示设置遵循的缓存机制,具体看出现在请求,还是响应中,分别对应请求和响应的设置,我发现好多参数都会出现在不同域的,所以记域的分类没什么 ...
Global site tag (gtag.js) - Google Analytics