阅读原文请点击:
http://click.aliyun.com/m/22981/
摘要: 案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。
案例说明
本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。
适用人群
MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。
案例侧重
数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。
示例介绍
房产网上经常会看到一些排行榜,如最近30日签约的楼盘排行、签约金额的楼盘排行等,本示例我们简单介绍通过对二手房产数据信息表(house_basic_info)统计分析出每个城市二手房均价top 5的楼盘并且给出该楼盘所在城区,最后需要让这些数据在房产网上呈现。
数据说明
二手房网产品数据信息表house_basic_info存储于RDS-MySQL(区域:阿里云华南1可用区A;网络:专有网络),表数据每天全量更新。
“二手房网产品数据信息表”在数加平台公开数据集-二手房产数据集上有,可以直接使用,不过数据量会与本案例呈现的可能不完全一致。
具体表信息如下:
字段 字段类型 字段说明
house_id varchar 房产 ID
house_city varchar 房产所在城市
house_total_price Double 房产总价
house_unit_price Double 房产均价
house_type varchar 房产类型
house_floor varchar 房产楼层
house_direction varchar 房产方向
house_deckoration varchar 房产装修
house_area Double 房产面积
house_community_name varchar 房产所在小区
house_region varchar 房产所在地区
proj_name varchar 楼盘名称
proj_addr varchar 项目地址
period int 产权年限
property varchar 物业公司
greening_rate varchar 绿化率
property_costs varchar 物业费用
datetime varchar 数据日期
数据样例(英文逗号分隔):
000404705c6add1dc08e54ba10720698,beijing,8000000,72717,3室1厅,低楼层/共24层,南,平层/精装,137,玺萌丽苑,丰台 草桥 三至四环,null,null,null,null,null,null,20170605
RDS-MySQL上house_basic_info表的建表语句,如:
CREATE TABLE `house_basic_info` (
`house_id` varchar(1024) NOT NULL COMMENT '房产 ID',
`house_city` varchar(1024) NULL COMMENT '房产所在城市',
`house_total_price` double NULL COMMENT '房产总价',
`house_unit_price` double NULL COMMENT '房产均价',
`house_type` varchar(1024) NULL COMMENT '房产类型',
`house_floor` varchar(1024) NULL COMMENT '房产楼层',
`house_direction` varchar(1024) NULL COMMENT '房产方向',
`house_deckoration` varchar(512) NULL COMMENT '房产装修',
`house_area` double NULL COMMENT '房产面积',
`house_community_name` varchar(1024) NULL COMMENT '房产所在小区',
`house_region` varchar(1024) NULL COMMENT '房产所在地区',
`proj_name` varchar(1024) NULL,
`proj_addr` varchar(1024) NULL,
`period` int(11) NULL,
`property` varchar(1024) NULL,
`greening_rate` varchar(1024) NULL,
`property_costs` varchar(1024) NULL,
`datetime` varchar(512) NULL COMMENT '数据日期'
) ENGINE=InnoDB
DEFAULT CHARACTER SET=utf8 COLLATE=utf8_general_ci
COMMENT='二手房网产品数据信息表';
需求分析
阅读原文请点击:
http://click.aliyun.com/m/22981/
分享到:
相关推荐
4. 简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 5. 在 ETL过程中四个基本的过程分别是什么? 6. 从 ERP源系统中抽取数据最好的方法是什么? 7. 简述直接连接数据库和...
数据仓库ETL工具箱 Data Warehouse ETL Toolkit
数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
ETL构建数据仓库 ETL构建数据仓库 ETL构建数据仓库 ETL构建数据仓库 ETL构建数据仓库
数据仓库和ETL数据仓库和ETL数据仓库和ETL数据仓库和ETL
oralcle,etl工程师面试题锦集,dba资料,Oracle入门资料等。。
1. ETL的定义:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据...
ETL升级一方面采用元数据驱动ETL的方式,通过配置元数据驱动ETL;另一方面,在ETL调度控制方面,采用结合数据质量校验的ETL调度
数据仓库ETL工具箱(data warehouse ETL tool kits),翻译的很一般
大规模设计和自动化数据作业
中文版 数据仓库ETL工具箱
etl工程师面试必备。里面涉及ORACLE面试题及优化方案和常见的etl面试题。 目录: DBA操作详细笔记 ETL面试资料 Oracle常见企业面试题集锦 Oracle常见企业面试题集锦-云端 Oracle面试题汇总 Oracle全方位学习笔记 ...
基于电信数据仓库系统的ETL研究与设计 李 颖 郝克刚 葛 玮 (西北大学软件工程研究所 陕西西安710127) 收稿日期: 2007 - 09 - 10。李颖,硕士,主研领域:软件工程。 摘 要 电信行业大都建立了自己的数据仓库系统...
本人学习数据仓库的总结,包括数据仓库和ETL。
最全的数据库工程师学习视频
数据仓库中的ETL和元数据,数据仓库中的ETL和元数据,数据仓库中的ETL和元数据,数据仓库中的ETL和元数据
BI项目中ETL设计与思考.docx DataStage(ETL)技术总结.docx ETL增量抽取.docx ETL增量抽取方式.docx ETL工具点评.docx ETL常见性能瓶颈.docx ETL构建企业级数据仓库五步法.docx ETL高级教程.docx 三大主流ETL工具选型...