深入探讨数据仓库和数据集市的异同之处

caowei3047

浏览: 139298 次
性别:
来自: 北京

最近访客更多访客>>

tiefanhe

liuwei_blog

luojy200

angeltoo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据仓库

数据结构企业应用中国电信 IT厂商中国移动

BI领域始终存在着建设数据仓库还是建设数据集市、自上而下还是自下而上的争论，而在实际建设中，自然不会有人完全按照某种理念去做，比如在电信公司的数据集市建设中，地市公司的特殊情况与总部规范之间的博弈就成了一大难题。

自上而下 VS自下而上

刚进入BI领域的时候，感觉到处都在说、都在做“数据仓库”，而现在，很多地方又开始说建设“数据集市”了。只是，如何对数据仓库和数据集市两者做出一个明晰的区分，却始终是个问题。

从字义上看， “仓库”可以想像成一所大房子，高高的货架，合理的出入路线，是一种集中存储货物的地方，一般顾客是不来参观访问的；而说到“集市”，就容易联想到空旷的场地，川流不息，大小商户摆出摊子，卖衣物的、卖烧饼及卖艺的，是让顾客来消费的地方。具体来说，数据仓库仅仅是提供存储的，提供一种面向数据管理的服务，不面向最终分析用户；而数据集市是面向分析应用的，面向最终用户。

如此理解比较简易，但是用这样的比喻来定义数据仓库和数据集市之间的区别却未免过于浅陋。比如数据仓库也可以被直接访问，而数据集市也提供存储，而且这样区分似乎就表明，数据仓库和集市必须都存在才能为最终用户所用。事实则并非如此。那么，这样看起来，它们的区别似乎仅在于规模大小不同了。但如此一来，又有问题了，比如多大才算大，多小才算小呢？这也得相对而言，譬如电信公司的数据集市恐怕就比一个玩具厂的数据仓库大出几千倍。

其实，换个角度来看的话，这两者之间的区别正是自上而下和自下而上辩论的产物，也就是Inmon和Kimball两派在产品应用中的具体体现。

理想的“自上而下”，即一个企业建立唯一的数据中心，就像一个数据的仓库，其中数据是经过整合、经过清洗、去掉脏数据的、标准的，能够提供统一的视图。要建立这样的数据仓库，并不从它需要支持那些应用入手，而是要从整个企业的环境入手，分析其中的概念，应该有什么样的数据，达成概念完整性。理想状况下，数据仓库建成以后，因为数据是标准的，没有太多冗余，数据质量得以保证。因此，报表、OLAP以及其他任何统计分析应用都可以从中获取需要的数据。然而，这仅仅是理想，多少有点形而上的做法，有些过于追求事物的本质。

而“自下而上”的做法，则是强调应用决定数据，有什么应用就获取什么数据。理想状况下，一项分析应用只需要刚刚好的数据。例如人力资源部门的数据集市，就不需要市场推广的数据，那么这些数据将不被纳入该集市中。很明显，这也是理想化的，因为需求是不断变化的，今天人力资源可能不需要市场推广数据，但是如果哪一天需要分析员工做市场推广的成本收益，恐怕就需要这些数据了。

当然，在实际项目的建设过程中，谁都不会傻呵呵地完全按照绝对的自上而下或是自下而上的方法去做。

就国外成熟数据仓库厂商的理念而言，大多是以自上而下为主，采用Bill Inmon的方法，先建立一套完美的EDW（企业数据仓库），并且他们通常针对行业已经设计出抽象程度比较高的概念模型，可以根据实际环境生成逻辑模型和物理模型。在构建完美的数据仓库的时候，设计者会考虑最终有哪些应用，根据应用做取舍。一般来说，数据仓库是分阶段的，譬如第一阶段主要服务于市场部门作市场分析，那么，建设者就很可能“偷工减料”，像员工信息、财务数据反正也没人用，便舍弃它们。由此，一套完美的EDW真正落实下来，往往因为受到项目周期、人员经验所限，最终会变得面目全非。

与国外相反，国内集成商的做法大多是自下而上。其中一部分原因在于周期和人员的原因，老板要求尽快上线，客户要求尽快看到结果，而这个时候恰好就是Kimball方法的用武之地。建设者会针对应用快速建立数据仓库（注意，这里仍然叫做数据仓库，似乎大家也不愿意叫做数据集市，可能那样显得有些小气吧）。实际上，如果比较采用两种不同理念完成的第一版本，我们会发现，这两种交付版本竟是如此相像。

数据集市的建设难题

从前几年电信行业的经营分析系统建设可以看出来：无论移动或是联通，都不会将经营分析系统称为是数据集市系统。可在一开始，这些系统恐怕都仅仅是服务于少数部门的。

几年前，中国移动开始在全国少数几个地市开始数据集市的试点，这才算真正有了个“数据集市”项目。之所以有这种项目，是因为经营分析系统不能满足地市公司分析的需要。当然，也不排除厂商、集成商在其中煽风点火的作用。

其实，这对移动公司来说，几乎可以算是一件很令人恼火的事情了！本来，建了几年的数据仓库，是要将数据集中起来，提供分析功能、辅助决策。可后来却发现，数据量太大不说，地市公司人员访问也不方便，甚至还绕开数据仓库，直接去生产系统里面取数据。此时，原来忽悠数据仓库的那批厂商集成商又上门，开始忽悠起数据集市了。三年前，他们说，“数据要集中，提供唯一的数据视图”，三年后，他们又讲，“数据要分布，便于用户的访问”。网界网消息

那么，到底该怎么看这个问题呢？事实上，如果辨证地来看，如此两种看上去截然不同的言论也确实能找出一些“交集”。说集中，三年前有的省分公司已经达到BOSS系统的集中了；说分布，不是有逻辑和物理数据集市之分吗！所谓逻辑，就是在现有数据仓库中建立一些视图或表，专门给地市使用；而物理，就是将硬件、软件放到地市，让地市公司自己玩儿。总之，以前好不容易将数据从地市抽上来，如今经营分析系统里转了一圈，再还给他们，移动公司还真得仔细想想这是否值得。

从实际建设情况来看，有的地市有钱，就建设独立的数据集市，有独立的硬件、软件；有的地市没钱，那就和其他差不多级别的地市联合起来，共用一个数据集市，建设所谓联合型数据集市。招都想绝了，以至于差不多都忘了数据集市究竟是干吗的了。而对于地市公司的员工来说，他们本来就不是对技术很熟悉的人，好容易学会了从BOSS系统里面用SQL统计点数，经营分析系统来了，于是重新学习从经分取数；如今，数据集市又开始建设了，新一轮学习当然是少不了的。在具体应用上，如果这个集市能够提取相应的数据当然好了，可就怕和经分一样，想提取数据，告之要等两个星期，那样，数据集市还是没有作用。

数据集市的另一重要功用是分析应用。虽然目前已经规划出名目繁多的专题，诸如离网预警、竞争对手等，可要将它们在不同的地市用起来，问题就大了。专题的应用重在流程，和具体的组织结构要关联起来，但各个地市公司情况并不一样。比如有的地市市场部比较强势，在数据分析中占据领导地位，而有的地市则是IT支撑比较强势；有的地市会为某个专题设定相应的组织结构，有的则不重视，因为那个专题要解决的问题根本不是自己最关注的，更谈不上耗费宝贵的人力在它上面。网界网

不管移动或是联通，都是总部出规范。如今，移动新的经营分析规范、数据集市规范都已出台，这些规范都是挺大挺全，可并不完全适合所有的省分和地市公司。虽然让省分公司自己去搞经营分析系统、省分公司让地市公司自己做数据集市都存在难以控制的风险，但是，如果考虑到经营压力和急迫的分析需求，地方公司的意见无疑正在越发得到重视

分享到：

ORA-12500：TNS：监听程序无法启动专用服 ... | 初学者oracle里常用命令详细讲解

2009-08-03 11:02
浏览 1381
评论(1)
查看更多

1 楼 davidx 2009-09-09

现在木时间看，先留个印。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

数据仓库与数据集市的区别: 接下来，我们将深入探讨数据仓库与数据集市的异同，以及它们各自的优势和局限性。首先，从设计理念来看，数据仓库旨在构建一个全面覆盖企业所有重要业务数据的综合数据库。其设计思维是全局性的，着眼于整合企业内...

了解数据仓库及其应用刘悦华.ppt: 本篇文章将深入探讨数据仓库及其应用，并通过对比分析来帮助理解这两种系统的异同。首先，数据仓库与数据库的核心区别在于它们的目标和数据特性。数据库主要用于日常业务操作，如事务处理、记录管理等，数据是实时...

MATLAB Simulink电动助力转向系统(EPS)模型构建与控制方法解析: 内容概要：本文详细介绍了基于MATLAB/Simulink的电动助力转向系统（EPS）模型的构建及其控制方法。首先，文中阐述了EPS在提升驾驶体验和安全性方面的重要意义。接着，重点讲解了四个关键模型的搭建：整车二自由度模型用于研究车辆转向特性；助力特性曲线模型确定不同驾驶条件下助力电机提供的助力力矩；助力电机模型模拟助力电机的工作过程；齿条模型描述助力电机转矩转化为车轮转向的动作。每个模型都有具体的参数设定和代码示例。此外，文章还解释了模型的输入（如前轮转角、方向盘力矩）和输出（转向助力力矩），并指出控制方法基于各模型间的输入输出关系，利用基本数学公式和逻辑判断实现。适用人群：汽车工程领域的研究人员、工程师和技术爱好者。使用场景及目标：适用于希望深入了解EPS工作原理的研究人员，以及需要进行EPS系统设计和优化的工程师。目标是掌握EPS系统的建模方法和控制策略，为实际项目提供理论支持和技术指导。其他说明：文中提供了丰富的代码片段和详细的模型介绍，有助于读者更好地理解和实践。同时强调了EPS对于提高驾驶安全性和舒适性的重要性。

实训商业源码-帝国cms7.5 7.2 UTF-8移动端同步插件-酷网站-论文模板.zip: 实训商业源码-帝国cms7.5 7.2 UTF-8移动端同步插件-酷网站-论文模板.zip

基于Lasso分位数回归的数据预测分析及其广泛应用: 内容概要：本文详细介绍了基于Lasso分位数回归的数据回归预测方法。首先阐述了Lasso分位数回归作为一种结合Lasso回归与分位数回归的统计方法，能够在处理变量选择和模型复杂度方面发挥重要作用。接着解释了其基本原理，即在分位数回归基础上加入Lasso正则化项，从而确保模型既能良好拟合数据，又能有效避免过拟合现象。随后讨论了具体实施流程，从数据预处理到最终预测，涵盖了特征选择、模型构建以及参数优化等多个环节。最后强调了该方法在多个行业（如金融、医疗）的实际应用场景及其潜在价值。适合人群：对统计学、机器学习有一定了解的研究人员和技术爱好者。使用场景及目标：适用于需要精确预测并同时考虑多维度因素影响的场合，特别是在面对高维数据时，希望通过减少冗余变量来提高预测准确性的情况。其他说明：文中提到的方法不仅限于特定领域，而是可以在多种不同类型的预测任务中发挥作用，为决策提供科学依据。

【MATLAB例程】线性卡尔曼滤波的程序，三维状态量和观测量，较为简单，可用于理解多维KF: 这段代码实现了一个三维状态的扩展卡尔曼滤波 (Extended Kalman Filter, EKF) 算法。通过生成过程噪声和观测噪声，对真实状态进行滤波估计，同时对比了滤波前后状态量的误差和误差累积分布曲线。只有一个m文件，下载后使用MATLAB打开运行即可，带误差输出。

毕业设计-百川多公众号集字福袋 2.0.5开源-整站商业源码.zip: 毕业设计-百川多公众号集字福袋 2.0.5开源-整站商业源码.zip

实训商业源码-多商家营销活动平台V1.3.9小程序前后端完整全开源解密源码-论文模板.zip: 实训商业源码-多商家营销活动平台V1.3.9小程序前后端完整全开源解密源码-论文模板.zip

ISC大作业论文-CSAPP-2025春: ISC大作业论文

毕业论文-在线进销存-整站商业源码.zip: 毕业论文-在线进销存-整站商业源码.zip

毕业设计-步数宝步数换购小程序 7.8.1-整站商业源码.zip: 毕业设计-步数宝步数换购小程序 7.8.1-整站商业源码.zip

实训商业源码-叮咚-门店会员卡小程序4.8.2开源-论文模板.zip: 实训商业源码-叮咚-门店会员卡小程序4.8.2开源-论文模板.zip

毕业论文-芸众圈子社区V1.7.6 开源版-整站商业源码.zip: 毕业论文-芸众圈子社区V1.7.6 开源版-整站商业源码.zip

配电网有功电压控制的多智能体强化学习实践：Dec-POMDP框架下的七种MARL算法及开源环境构建: 内容概要：本文探讨了多智能体强化学习(MARL)在配电网有功电压控制中的应用。文中介绍了将电压约束转化为势垒函数的方法，并在Dec-POMDP框架下对七种最先进的MARL算法进行了大规模实验。实验表明，设计合理的电压势垒函数对于提高电压控制效果至关重要。此外，作者还建立了开源环境，旨在促进电力社区和MARL社区的合作，推动MARL算法的实际应用。适合人群：从事电力系统自动化、智能电网研究的专业人士，以及对多智能体系统和强化学习感兴趣的科研人员。使用场景及目标：适用于需要优化配电网电压控制的场景，特别是希望通过软件手段而非硬件升级来提升电力质量和缓解电力拥塞的情况。目标是展示MARL在电力系统中的潜力，并为后续研究提供工具和支持。其他说明：文章不仅讨论了理论和技术细节，还包括大量代码片段，帮助读者理解和实践MARL在电压控制中的具体应用。

PFC3D岩石注浆破坏模拟：注浆速度、流量调节及孔位选择研究: 内容概要：本文基于PFC3D（Particle Flow Code 3D）软件，详细探讨了岩石注浆过程中的破坏现象及其背后的机理。首先介绍了注浆破坏的复杂性，指出这是由材料特性、地质构造和计算机模拟技术共同决定的。接着重点讲解了注浆速度和流量的调整方法，强调适当的速度和流量对于确保注浆效率和避免过度破坏的重要性。最后讨论了在不考虑渗流场的情况下，如何根据岩石结构特征选择最佳的注浆孔位置，以提高注浆效果并保护周围岩石结构。适合人群：从事地质工程领域的研究人员和技术人员，尤其是那些希望深入了解岩石注浆过程的人。使用场景及目标：适用于需要利用PFC3D进行岩石注浆模拟的研究项目，旨在帮助用户掌握注浆速度、流量调节技巧以及合理的注浆孔位选择方法。其他说明：文中提供了简单的PFC3D模拟代码框架，便于读者快速上手实践。同时提醒读者注意实际操作时应结合实验室理论模型和现场具体情况来进行参数优化。

电力系统研究中的IEEE标准节点仿真模型及其应用: 内容概要：本文详细介绍了IEEE标准节点仿真模型系列，涵盖了从简单到复杂的多个节点配置，如2机5节点、6节点、3机9节点、13节点、5机14节点、15节点、30节点、33节点、34节点、10机39节点以及69节点。所有模型均已成功调试并实现了潮流计算，适用于短路仿真、稳定性研究和电能质量研究等领域。文中还特别强调了三相等效电源的应用，这是模拟真实电力系统的关键要素之一。适合人群：从事电力系统研究、仿真和优化的专业人士和技术人员。使用场景及目标：①用于电力系统短路仿真的建模与分析；②评估电力系统的稳定性和可靠性；③研究电能质量问题，提升电力设备的运行效率和寿命。阅读建议：本文提供了丰富的背景知识和具体应用场景，建议读者结合实际项目需求选择合适的模型进行深入研究和应用。

实训商业源码-【超人】积分商城 5.2.26-论文模板.zip: 实训商业源码-【超人】积分商城 5.2.26-论文模板.zip

实训商业源码-思创兼职小程序V6.7.6 开源版-论文模板.zip: 实训商业源码-思创兼职小程序V6.7.6 开源版-论文模板.zip

2025年手绘风格毕业设计答辩模板范文.pptx: 2025年手绘风格毕业设计答辩模板范文

【C语言编程】常用算法与数据结构实现：链表、栈、队列、二叉树、排序查找及图结构的实战指南: 内容概要：本文档详细介绍了使用C语言实现常用的数据结构和算法。首先阐述了算法与数据结构的重要性，并具体讲解了链表、栈、队列、二叉树、图等数据结构的实现方法及其操作函数。接着深入探讨了快速排序和二分查找这两种高效的排序与查找算法，提供了完整的代码示例并解释了每个部分的作用。最后还讨论了图结构的深度优先搜索（DFS）和广度优先搜索（BFS）遍历算法，强调了内存管理和防御性编程的重要性。所有代码示例均可直接编译运行，建议在Linux环境下使用gcc编译测试。适合人群：具备一定编程基础，尤其是熟悉C语言的初学者或有一定经验的研发人员。使用场景及目标：①帮助读者理解并掌握常见的数据结构（如链表、栈、队列、二叉树、图）及其基本操作；②通过实际编码练习提高读者对经典算法（如快速排序、二分查找）的理解；③培养良好的编程习惯，如内存管理和防御性编程。阅读建议：由于文档包含大量代码片段和详细的实现步骤，读者应边阅读边动手实践，尝试编译和运行提供的代码示例，同时注意理解每段代码背后的逻辑和设计思想。此外，建议读者关注文档中提到的编程规范和最佳实践，以提升自身的编程技能。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论