`
wbj0110
  • 浏览: 1553138 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

数据仓库的源数据类型

阅读更多

数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持。这些进入到数据仓库中的数据无外乎三种类型:结构化数据半结构化数据非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它们分别包括哪些源数据以及这些数据在网站数据分析中的作用。

结构化数据

这类数据的格式非常规范,典型的代表就是关系数据库中的数据,这些数据可以用二维表来存储,有固定的字段数,每个字段有固定的数据类型(数字、字符、日期等),并且每个字段的字节长度也相对固定。这类数据也是最易管理维护的,同时对于查询、展示和分析而言也是最为方便的一类数据格式。

结构化的数据在网站中一般指的是网站内部的数据库数据以及一些外部开放的数据库接口中获取的数据。这些数据可以直接通过ETL导入到数据仓库中进行集成化管理,而在网站分析和数据分析中直接可以根据需要通过SQL语句查询导出。

结构化的数据在网站数据分析中占据着举足轻重的地位,这些存储在数据库中的数据一般都是网站的运营数据及用户操作的结果数据(Outcome),比如网站的注册用户数、博客的文章数、评论数……而对于电子商务类网站而言,那些订单和销售数据也直接的存储与数据库中,而基于这些数据计算得到的总利润、每个订单平均利润、每个用户创造利润等KPI数据可以直接分析网站的目标是否实现。

半结构化数据

半结构化数据的格式较为规范,一般都是纯文本数据,可以通过某种方式解析得到每项的数据。最常见的就是日志数据、XML、JSON等格式的数据,它们每条记录可能会有预定义的规范,但是可能每条记录包含的信息不尽相同,也可能会有不同的字段数,包含不同的字段名或字段类型,或者包含着嵌套的格式。这类数据一般都是以纯文本的形式输出,管理维护也较为方便,但在需要使用这些数据时,如获取、查询或分析数据时,可能需要先对这些数据格式进行相应的解析。

半结构化的数据通常是指网站的日志数据,或者因为某些需求以XML或JSON格式输出的数据。最常见的就是网站的Apache日志,它根据预定义的字段顺序打出相应的值:

72.14.192.1 – – [09/May/2010:03:35:02 +0800] “GET / HTTP/1.1″ 200 13726 “-” “Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US),gzip(gfe) (via translate.google.com)”

而JSON格式则会以键值对(Key/Value)的形式输出数据:

{time: 1234567890, action: “comment”, respond: true, user: {userid: 1, username: “abc”}}

对于像Apache日志那样的数据,我们可以根据需要切分出那些有用的数据将它们导入到数据仓库,而xml和JSON格式的数据我们可以调用各类字符串解析的方法通过它们的标签或者名称来获取相应的值,对于嵌套结构可以使用逐层遍历的方法依次获取,同样选取那些对于分析有用的数据存在数据仓库。在这个过程中,ETL中的转换部分会显得较为复杂,因为这里需要进行格式解析,而这一步的优劣直接影响ETL的稳定性和健壮性。还有一个令人头疼的问题就是数据的格式和存放问题,也许有必要创建一些自定义字段类型;或者选择NOSQL数据库,关于NOSQL数据库的讨论一度热火朝天,从Google的Big table、Amazon的Dynamo到Facebook的Cassandra,NOSQL数据库提供了可扩展性的海量数据存储,对于WEB数据管理提供了新的解决方案。

半结构化数据对于网站数据分析同样非常重要,网站的点击流日志及一些用户行为数据一般都是以半结构化数据的形式输出的,当我们需要统计网站分析中的各类指标或者进行用户行为分析时,这类数据就必不可少。

非结构化数据

非结构化数据指的是那些非纯文本类数据,没有标准格式,无法直接地解析出相应的值。常见的非结构化数据有富文本文档、网页、多媒体(图像、声音、视频等)。这类数据不易收集管理,也无法直接查询和分析,所以对这类数据需要使用一些不同的处理方式。

富文本、图片、声音、视频等这些信息,除非需要进行高级的文本挖掘或者多媒体数据挖掘,否者对于一些日常涉及的数据统计和分析而言,非结构化数据本身是没有分析的价值的。所以一般不会将非结构化数据直接以二进制的形式存入数据仓库,数据仓库之父——Inmon的建议是在数据仓库中只需要储存非结构化数据的元数据(Meta Data),或者称为解释型数据。所以我们一般将非结构化的数据存放在文件系统(File System)中,而在数据仓库里面记录这些数据的信息,以便快速地索引和寻找需要的数据。如Word文档的标题、摘要、作者、创建时间、最近一次修改时间等,而图片则可能还包括像素、分辨率等。就像你右击文件属性的详细信息标签下看到的那些数据项,这些非结构化数据的元数据能够通过标准的形式记录,并且能帮助快速地搜索查询到对应的非结构化数据,同样可以被用于统计和分析,其实就是给每个非结构化数据贴上了标签,并将标签信息记录到了数据仓库中。

可能对于大多数网站而言,这类非结构化数据除非被用于高级的数据挖掘,在大部分时间中它们对数据的统计分析作用并不大,但对于某些网站,比如图片、视频类网站,这些数据就至关重要。对于图片、视频网站而言,每个图片和视频就是网站的产品,而记录图片视频的元数据就是这些产品的详细信息数据,产品分析、产品细分等都依赖于这些数据;同样,对于一些公司的内部归档的文档、资料而言,如果有数据仓库统一地记录这些文件的信息,就能够在必要时快速地搜索找到需要的文件,对于信息的统一集成化管理非常有效。

随着互联网的不断发展,各类信息不断膨胀,还有各式各样的数据类型会不断涌现,而数据仓库扮演着数据集成者的角色,对于各类数据的处理和管理也将不断地改进优化。

本文转载自:http://webdataanalysis.net/web-data-warehouse/data-warehouse-source-data/

分享到:
评论

相关推荐

    数据仓库的源数据类型.pdf

    数据仓库的源数据类型.pdf

    数据仓库(教材

    第15章 数据仓库及其应用 2 15.1数据仓库发展的由来 2 15.2数据仓库的概念 3 15.3 数据仓库体系结构 5 15.3.1 数据仓库的概念结构 5 15.3.2 数据仓库的层次结构 6 15.4 ETL 8 15.5 数据集市及其结构 10 15.6 元数据 ...

    北京中科信软数据仓库培训

    第二天上午 元数据简介 数据仓库元数据定义、类型以及在数据仓库环境中的角色 数据仓库元数据的类型 开发元数据的策略等 中间休息十分钟 数据仓库基本概念介绍 数据仓库的基本元素 数据仓库的基本形式 数据仓库...

    基于大数据的数据仓库-数据仓库建模基本理论.pdf

    Ralph Kimball推崇数据集市的集合为数据仓库,同时也提出了对数据集市的维度建模,将数 据仓库中的表划分为事实表、维度表两种类型。 事实表: 在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每⼀个...

    联机分析处理技术在数据仓库中的应用

    随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是以单一的数据资源即数据库为中心,进行从事务处理、批处理到决策分析等各种类型的数据处理工作。而不同类型的数据处理...

    数据统计和分析论文的matlab源代码

    数据仓库架构建立后,以数据仓库结构为目标对日志源进行ETL, ETL过程基于Hadoop分布式计算框架,摒弃日志文件中的多余信息,将需要的数据抽取、计算,并装载入Hive数据仓库。 随后基于Hive数据仓库及其提供的数据查询...

    数据仓库基础

    第一章对数据仓库的迫切需求...................................................................................................23 本章目标:.................................................................

    数据治理-数据生命周期管理-大数据整合.pdf

    最典型的案例就是代码值转换,源端系统中直接以"F","M"来表⽰性别,在⽬标 系统中采⽤"男"和"⼥"来表⽰,这就需要字段转换 计算补齐:在源数据丢失或者缺失的情况下,通过其他数据的计算,经过某种业务规则或者数据...

    数据仓库 vs 数据集市 vs 数据湖 vs 数据中台.pdf

    新型数据源的涌现:除了传统的结构化数据,越来越多的非结构化和半结构化数据源涌现,例如社交媒体数据、日志文件、传感器数据、地理位置数据等。 技术的进步:大数据处理的技术工具和技术方法得到了快速发展,例如...

    大数据仓库与大数据挖掘课程教学设计.doc

    2 数据库仓库与数据集的概念介绍 2.1数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它 是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来...

    数据结构仓库管理系统.doc

    输入数据类型、格式和内容限制 输入数据类型为字符型,但在输入过程中不可出现空格,如在输入商品名称时不 可出现空格。 4. 主要模块的算法描述 流程图: 5. 源程序代码 #include<stdio.h> #include"iostream" int ...

    大数据时代之数据仓库的概述

    新型数据源的涌现:除了传统的结构化数据,越来越多的非结构化和半结构化数据源涌现,例如社交媒体数据、日志文件、传感器数据、地理位置数据等。 技术的进步:大数据处理的技术工具和技术方法得到了快速发展,例如...

    张绍勇-GBase云上逻辑数据仓库助力行业迎接数字化转型新挑战1

    GBase云上逻辑数据仓库助力行业迎接数字化转型新挑战行业数字化转型,传统企业级数据仓库面临的6大挑战类型复杂数据源增多结构化,半结构化和非结构化数据类型的混合

    database-transform-tool:通过图形界面为数据监控以及数据同步提高良好的服务,可支持数据同步的数据源或数据库有:SQL数据源、NoSQL数据源、数据引擎、数据仓库、消息队列;通过Canal可支持数据库监控以及数据备份

    数据仓库【GreenPlum|PostgreSQL】; 消息队列【Kafka】 提供Canal可支持【MySQL|MariaDB】数据库监控以及数据备份。 1. Canal监控【MySQL|MariaDB】 2. 数据资源类型 1)Elasticsearch服务(Transport/Rest/...

    北京中科信软oracle培训课件

    第二天上午 元数据简介 数据仓库元数据定义、类型以及在数据仓库环境中的角色 数据仓库元数据的类型 开发元数据的策略等 中间休息十分钟 数据仓库基本概念介绍 数据仓库的基本元素 数据仓库的基本形式 数据仓库...

    大数据仓库与大数据挖掘--决策树实验.doc

    勾选从现有关系数据库或数据仓库,继续下一步 图14 选择定义方法 14. 选择microsoft 决策树,继续下一步 图15 创建数据挖掘模型结构 15. 下一步 图16 选择数据源视图 16. 勾选事例,继续下一步 图17 指定表类型 17....

    大数据导论(1)——“大数据”相关概念、5V特征、数据类型.pdf

    ⼤数据导论(1)——"⼤数据"相关概念、5V特征、数据类型 在过去的⼗⼏年中,各个领域都出现了⼤规模的数据增长,⽽各类... 信噪⽐与数据源和数据类型⽆关。 5. 价值(Value) 即低价值密度。随着数据量的增长,数据

    基于SpringBoot和Vue3的数据可视化大屏工具源码,支持多数据源及拖拽式编辑

    项目概述:这是一款基于...文件类型分布如下:JavaScript文件433个,图片资源102个,样式文件19个,字体文件5个,Markdown文档2个,及其他各类文件共计9个。该项目已获得合法许可,可供进一步开发和部署使用。

Global site tag (gtag.js) - Google Analytics