`
文章列表

hive优化

    博客分类:
  • hive
http://shiyanjun.cn/archives/588.html     http://www.cnblogs.com/xd502djj/p/3799432.html   https://www.2cto.com/net/201708/668075.html   http://dacoolbaby.iteye.com/blog/1879002     基本原则:

ETL

    博客分类:
  • ETL
  1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL项目组的作用是什么? 答: 逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。
Hadoop 统计一个目录的文件大小   hive的查询注意事项以及优化总结 .  http://www.cnblogs.com/xd502djj/p/3799432.html Hadoop Hive基础sql语法 http://www.cnblogs.com/HondaHsu/p/4346354.html
1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b)    假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,12 ...
题目:一个简单的论坛系统,以数据库储存如下数据: 用户名,email,主页,电话,联系地址,发帖标题,发帖内容,回复标题,回复内容。 每天论坛访问量300万左右,更新帖子10万左右。 请给出数据库表结构设计,并结合范 ...
在企业应用开发中经常是业务人员提供Excel的数据源,而开发人员将Excel数据导入到数据库中,然后在数据库中进行处理。在Excel中为了表示一种层次和所属关系,很多时候会产生很多空白的单元格。比如一个CRM数据,里面有销售团队、销售员和客户数据,销售员属于某个销售团队,客户属于某个具体的销售,于是业务人员会提供这样的数据: 销售团队 销售员 客户 G1 S1 C1    

from insert select where

    博客分类:
  • hive
 
from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5     --------------------------------------------------   FROM (   FROM ( SELECT id fact_chuku_id,   IF ( export_type = '6', concat('C ...

各仓仓容

    博客分类:
  • wms
1、库存数据取自WMS系统,数据已剔除三级分类:京东服务、购机送费、远程服务、游戏软件、京东贺卡、教育软件、礼盒礼券、礼品卡券、京东礼券、合约虚拟商品、大闸蟹、京东卡、上门服务、杀毒软件、运营商周边、选号入网、4G网络、“0”元购机、办套餐 2、仓容使用率<100%,亮绿灯;100<=仓容使用率<=130%,亮黄灯;仓容使用率>130%,亮红灯; 3、中小件库房实用面积=财务坪效所用面积;   4、大家电库房使用面积=存储区面积(含储位和拣通道)-月台收货区面积
订单:客户订单 | 单量:客户订单的单量 | 出库单量:客户订单的打包单量 | 财务预算日均单量:当月财务预算总单量/当月天数 今日单量:截至此时,WMS今日的接收单量 | 今日产量:截至此时,库房今日的打包单量 | 昨日单量:截至昨日23:59,WMS昨日的接收单量 昨日产量:截至昨日23:59,库房昨日的打包单量 | 昨日此时单量:截至昨日此时,WMS昨日的接收单量 | 昨日此时产量:截至昨日此时,库房昨日的打包单量 预计单量:今日单量/昨日此时单量×昨日单量 | 预计产量:今日产量/昨日此时产量×昨日产量 | 单量同比:今日单量/昨日此时单量×100% (>30% ...

hive建表

    博客分类:
  • hive
 
DROP TABLE IF EXISTS app_wms_data_clean_bs_pack; CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack(   stat_date                    string      comment     '统计日期',   GOODS_NO             string COMMENT 'sku',   PACKCODE             string COMMENT '包装',   PACK_NAME            string COMMENT '名称', ...
http://blog.sina.com.cn/s/blog_4ffbe80f01018w5o.html   google:打开google地图-->查找目的地-->右键:此位置居中-->地址栏键入javascript:void(prompt('',gApplication.getMap().getCenter()));回车如果上述方法没有显示、报错‘ prompt is not defined’或其他不能够,尝试以下方法firefox打开google地图-->查找目的地-->右键:此位置居中-->打开FIREBUG -> 控制台 -> 点 ...

hive分享

    博客分类:
  • hive
开发常用日期处理函数   No.1 sysdate(int) 语法:sysdate(整数数字) 返回值:string类型的日期 说明:返回系统当前日期加上括号中的整数数字对应的日期,如sysdate(-1)返回昨天的日期‘2015-01-27’,sysdate(0)返回今天‘2015-01-28’,sysdate(1)返回明天‘2015-01-29’,以此类推。 举例: 输入:Select sysdate(-1) from tablename limit 1; 返回:2015-01-27 输入:Select sysdate(0) from tablename limit 1; ...

hive 表连接

    博客分类:
  • hive
http://shiyanjun.cn/archives/588.html   生成一个MR Job 多表连接,如果多个表中每个表都使用同一个列进行连接(出现在JOIN子句中),则只会生成一个MR Job,例如:

订单打印日志

任务ID:153513开始执行,执行命令:workspace/ods_etl/fdm_chat_analysis_order_new_chain.py 2015-01-22 03:37:57 INFO hive -e "use fdm;use fdm; set hive.ppd.remove.duplicatefilters=false; set mapred.job.priority=NORMAL; set mapred.output.compress=true; set hive.exec.compress.output=true; set mapred.output.compre ...
数据 140g, 按照字段time 降序排列 选出最大的前50个。 使用 一般方法 select * from table order by time desc limit 50.  执行了1小时6分钟完全算出。 任务数1个  map数  1783 reduce 1 而 select * from (select * from table distribute by time sort by time desc limit 50 ) t order by time desc limit 50; 需要5分钟算出。结果一致。 任务数2个   分别是:
Global site tag (gtag.js) - Google Analytics