Java视线论坛 -> Java技术讨论区 -> Java企业应用
<span class=\"postbody\">dlee
-----------------------------------------------------------------------------------------
<span class=\"postbody\">《数据仓库》(Building the Data Warehouse),W.H.Inmon 著,机械工业出版社出版。
数据仓库是数据挖掘和 OLAP 的基础,是实现一对一服务的必经之路,是目前对于企业最有战略价值的技术。
w.H.Inmon 就是“数据仓库之父”。
<span class=\"postbody\"><span class=\"postbody\">呵呵,我也是刚刚开始转向这个方面。因为有一个机会要做一个真正的数据仓库项目,算是赶鸭子上架了。现在正在恶补数据仓库、OLAP 方面的知识。一些概念还是有些模糊,等过一段时间积累了一些经验后再做比较系统的介绍。数据仓库不是某种具体的技术,而是一个完整的体系结构,确实不是一两句话甚至一两篇文章能够描述清楚的。
我的想法是,一个好的 Java 程序员研究清楚某方面的技术,比如 Hibernate 是不成问题的。但是如果研究清楚了数据仓库、数据挖掘要达到的目的以及设计和实现的方法,那么思考的层面就接近于企业的商务人员甚至管理者了。技术的最终目的还是要解决企业所面临的问题。软件企业的核心竞争力也正在于能否为企业量身定制,提供全面综合的解决方案。
关于 <span style=\"COLOR: #ffa34f\">OLTP 与 OLAP 的区别,我来节选一段《数据挖掘》第2章“数据仓库和数据挖掘的 OLAP 技术”中的描述:
2.1.1 操作数据库系统与数据仓库的区别
由于大多数人都熟悉商用关系数据库系统,将数据仓库与之比较,就容易理解什么是数据仓库。
联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为<span style=\"FONT-WEIGHT: bold\">联机事务处理(<span style=\"COLOR: #ffa34f\">OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为<span style=\"FONT-WEIGHT: bold\">联机分析处理(OLAP)系统。
<span style=\"COLOR: #ffa34f\">OLTP 和 OLAP 的主要区别概述如下。
<span style=\"FONT-WEIGHT: bold\">用户和系统的面向性:<span style=\"COLOR: #ffa34f\">OLTP 是<span style=\"FONT-STYLE: italic\">面向顾客的,用于办事员、客户和信息技术专业人员的事务和查询处理。OLAP 是<span style=\"FONT-STYLE: italic\">面向市场的,用于知识工人(包括经理、主管和分析人员)的数据分析。
<span style=\"FONT-WEIGHT: bold\">数据内容:<span style=\"COLOR: #ffa34f\">OLTP 系统管理当前数据。通常,这种数据太琐碎,难以用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。
<span style=\"FONT-WEIGHT: bold\">数据库设计:通常,<span style=\"COLOR: #ffa34f\">OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而 OLAP 系统通常采用<span style=\"FONT-STYLE: italic\">星型或<span style=\"FONT-STYLE: italic\">雪花模型和面向主题的数据库设计。
<span style=\"FONT-WEIGHT: bold\">视图:<span style=\"COLOR: #ffa34f\">OLTP 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越数据库模式的多个版本。
OLAP 系统也处理来自于不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。
<span style=\"FONT-WEIGHT: bold\">访问模式:<span style=\"COLOR: #ffa34f\">OLTP 系统的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。然而,对 OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。
<span style=\"COLOR: #ffa34f\">OLTP 和 OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。这些都概括在表2-1中。
<span class=\"postbody\"><span class=\"postbody\"><span class=\"postbody\">《数据挖掘——概念与技术》(Data Mining: Concepts and Techniques),Jiawei Han & Micheline Kamber 著,机械工业出版社出版。
这本书最好与《数据仓库》一起读。数据仓库提供了 OLAP 的基础,而如何更好地做 OLAP,则是数据挖掘技术所要讨论的。
韩家炜教授是我们的同胞,是国际著名的数据挖掘专家。
[
点击查看详细]
分享到:
相关推荐
大数据实战Demo系统-MaxCompute数据仓库数据转换实践.pdf 大数据实战Demo系统-MaxCompute数据仓库数据转换实践.pdf 大数据实战Demo系统-MaxCompute数据仓库数据转换实践.pdf 大数据实战Demo系统-MaxCompute数据仓库...
为⽀持统⼀的指标运算,⼀些数据仓库也建⽴了统⼀计算层,统⼀对于基于数据仓库上的各类指标进⾏统⼀计算,并提供给各集市进 ⾏展⽰ 为⽀持数据分析与挖掘应⽤,⼀些数据仓库⽣成⾯向客户、⾯向产品、⾯向员⼯的宽...
《大数据实战Demo系统-MaxCompute数据仓库数据转换实践》是一份专业的大数据解决方案文档,它详细阐述了如何利用阿里云的MaxCompute服务进行高效的数据转换操作。MaxCompute是一个强大的数据仓库服务,提供了海量...
而狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
数据仓库建设方案、数据仓库整体架构、数据挖掘、数据清洗、转换
8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 ...
Oracle的数据仓库系统的逻辑体系架构是由3层组成: 数据获取层:实现如何从所有源系统中获得原始的业务数据,并对其进行一致性处理,按主题进行数据重组和格式转换,然后传送并装载到数据仓库系统中。 数据管理层:...
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
数据仓库是专为支持企业或组织决策分析而构建的大规模数据存储和管理系统。它集中存储了来自不同数据源的数据,经过清洗、整合和转换后,以统一、一致和易于查询的格式存储在仓库中。数据仓库的核心特点包括面向主题...
数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行...
CA数据仓库完整的数据仓库解决方案,数据仓库实施包括五个过程:设计建模、数据转换与集成、数据存储和管理、数据分析和展现、数据仓库的维护和管理,其提供了覆盖整个建立周期的完整产品:internet Developer Suite...
数据仓库的实施是一个相当复杂的过程(包括:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现及数据仓库的维护和管理)。并且每个行业都有自己的运行特点,都有自己特定的业务范围,都有自己...
为了构建支持企业决策分析的数据仓库,分析了传统数据仓库模型的局限性,提出了一个基于统一视图模型的数据仓库体系结构。该体系结构是在传统数据仓库模型的数据源和数据仓库之间增加一个统一标准层,并利用统一视图...
传统的关系数据库一般采用二维数据表的形式来表示数据,以维是行,另一维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过...使用维护阶段包括:数据仓库应用、数据仓库维护和数据仓库评价。
数据仓库逻辑数据模型方案 数据应用工程成熟度评测模型 数据的质量控制及质量保证 数据质量管理:6个维度,50个检查项 数据治理建设实施方案 数据治理之数据指标体系 资产管理公司-数据质量管理办法v0.3 指标数据...