数据仓库管理员的主要职责:
1,通过业务领域、工作职责和计算机能力来理解用户
2,通过数据仓库来确定业务用户所需要做的决定
3,使用数据仓库区分最好的用户:制定高效的、大影响力的决定的用户
4,找到潜在的新用户并让它们了解数据仓库
5,选择最有效、最易操作的数据子集到数据仓库,而不是将汪洋大海般的数据都弄过来
6,使得用户界面和应用简单、模板化,特别是匹配用户的认知和理解能力
7,确保数据准确且可信任,让数据保持一致性
8,持续监控数据和发布的报表的准确性
9,搜索新的数据源,持续改进数据仓库,从而适应报表需求和核心业务
10,通过展示数据仓库的业务决策所带来的好处而证明你的软件、职业、硬件开销有价值
11,按规律发布数据
12,保持业务用户对你的信任
13,维持业务用户、执行赞助和老板happy
数据仓库的组件:
1,Operational Source System
即应用遗留系统
2,Data Staging Area
做ETL(extract-transformation-load)的地方,从Operational Source System抽取数据,过滤、合并、消重、转换数据格式,然后加载到展示区
Data Staging Area就相当于厨房,拿到很多原材料,加工之后成为美味佳肴,送给餐厅
Data Staging Area的核心架构需求就是它限制业务用户访问,且不提供面向查询和展示的服务
3,Data Presentation Area
含有一系列的数据集市,每个数据集市展现了一个单独的业务进程需要的数据,这些业务进程跨越了组织功能的界限
数据集市采用dimensional modeling和star schema,和3NF建模方式不同
第一范式(1NF):数据库表中的字段都是单一属性的,不可再分
第二范式(2NF):数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖
第三范式(3NF):在第二范式的基础上,数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖则符合第三范式
鲍依斯-科得范式(BCNF):在第三范式的基础上,数据库表中如果不存在任何字段对任一候选关键字段的传递函数依赖则符合第三范式
在可查询的Data Presentation Area里的数据必须是dimensional、atomic,必须依附于数据仓库总线架构
4,Data Access Tools
依赖于Data Presentation Area的多种建模、查询、报表、分析、数据挖掘工具
Dimensional Modeling:
1,Fact Table
包含业务数据的表,如daily_sales_fact_table(date, product_key, store_key, quantity_sold, dollar_sales_amount)
fact table分三种粒度类别:transaction/periodic snapshot/accumulating snapshot
2,Dimension Table
Dimension table是fact table的entry point,包含了业务对象的文本描述,如
product_dimension_table(product_key, product_description, sku_number, brand_description, category_description, department_description,...)
Fact table和Dimension table需要join来查询数据,所以又称之为join star schema
每个数据集市可能包含多个fact tables,每个fact table可能对应5到15个dimension tables
现在FW的数据仓库模型就是这样,AS的log和UI/BVI的metadata被extract到BE做ETL,生成Fact table和Dimension Table供UI reporting使用
但是遇到的问题是fact table只有一个,而且特别大,所以可以按业务逻辑相应拆分
另外没有periodic snapshot和accumulating snapshot,加上后对Reporting的performance就会好很多
分享到:
相关推荐
Ralph Kimball ToolKit
Chapter 6 Introducing Dimensional Modeling. Chapter 7 Designing the Dimensional Model. Chapter 8 Designing the Physical Database and Planning for Performance. Chapter 9 Introducing Extract, ...
The first edition of Ralph Kimball's The Data Warehouse Toolkit introduced the industry to dimensional modeling, and now his books are considered the most authoritative guides in this space....
《The Data Warehouse Toolkit second edition The Complete Guide To Dimensional Modeling》 《The Data Warehouse Lifecycle Toolkit——Expert Methods for Designing,Developing,and Deploying Data Warehouses...
数据仓库工具箱的最新版 数据仓库领域大师级作品 英文版 [目前国内没出中文版] 2013年出版
数据仓库ETL工具箱 Data Warehouse ETL Toolkit
Eclipse Modeling Project A Domain-Specific Language (DSL) Toolkit
数据仓库建模经典指导书籍 The Data Warehouse Toolkit Second Edition The Complete Guide to Dimensional Modeling
《Data warehouse ETL Toolkit》的中文版,中文名为数据仓库ETL工具箱, 一本介绍数据仓库ETL设计与开发的经典书籍,是Kimball数据仓库序列之作中的一本,其它两本为维度建模指南和数据仓库生命周期。
1、percona-toolkit-3.3.1-1-最新版.zip 2、支持centos、redhat、orace linux、ubuntu、debian、麒麟V10、欧拉系统等个版本Linux系统。 3、内部各版本安装包列表如下: percona-toolkit-3.3.1-1.el7.x86_64.rpm、 ...
数据仓库
Coolite Toolkit 学习笔记,共9个doc文档,供学习参考。
数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
MySQL Migration Toolkit 可以将任何数据源转换成mysql的数据,也可以将mysql的数据转换成其它类型的数据 MySQL Migration Toolkit 包括下列转换工具: Access-to-MySQL Access数据库转MySQL数据库 DBF-to-MySQL DBF...
随着The Data Warehouse Toolkit(1996)第1版的出版发行,Ralph Kimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度...
使用 IBM DB2 Migration Toolkit 迁移数据,此文档详细介绍了,使用IBM MTK工具进行数据库移植的过程,很值得一看!
PROFINET TPS-1 Development Toolkit IEC 61131 Control If you are interested in IEC 61131 Control or IEC 61508 Safety, please contact us. IEC 61508 Safety If you are interested in IEC 61131 Control or ...