本篇文章 结合 BI 分析 了 大数据 的使用价值 以及 云计算 ,大数据 ,nosql 的 他们在实际 业务场景的 价值和功能。
大数据与云计算的关系是什么,Hadoop又如何参与其中,Nosql在什么位置,与BI又有什么关系?以下这篇文字讲他们的关系讲的非常清楚。
在谈大数据的时候,首先谈到的就是大数据的4V特性,即类型复杂,海量,快速和价值。IBM原来谈大数据的时候谈3V,没有价值这个V。而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其它3V都是为价值目标服务。在有了4V的概念后,就很容易简化的来理解大数据的核心,即大数据的总体架构包括三层,数据存储,数据处理和数据分析。类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。
数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。
数据存储层
数据有很多分法,有结构化,半结构化,非结构化;也有元数据,主数据,业务数据;还可以分为GIS,视频,文件,语音,业务交易类各种数据。传统的结构化数据库已经无法满足数据多样性的存储要求,因此在RDBMS基础上增加了两种类型,一种是hdfs可以直接应用于非结构化文件存储,一种是nosql类数据库,可以应用于结构化和半结构化数据存储。
从存储层的搭建来说,关系型数据库,NoSQL数据库和hdfs分布式文件系统三种存储方式都需要。业务应用根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,我们可以对存储层进一步的封装,形成一个统一的共享存储服务层,简化这种操作。从用户来讲并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。
数据处理层
数据处理层核心解决问题在于数据存储出现分布式后带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。
在传统的云相关技术架构上,可以将hive,pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。原来我思考的是将hive划入到数据分析层能力不合适,因为hive重点还是在真正处理下的复杂查询的拆分,查询结果的重新聚合,而mapreduce本身又实现真正的分布式处理能力。
mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分,分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。
数据分析层
最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层核心仍然在于传统的BI分析的内容。包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。
数据分析我只关注两个内容,一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决这两个问题基本解决数据分析的问题。
传统的BI分析通过大量的ETL数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的BI分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,BI分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。
谈了这么多,核心还是想说明大数据两大核心为云技术和BI,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是BI,大数据实施落地式云技术。
相关推荐
大数据云计算技术 Hadoop集群监控与Hive高可用-暴风影音技术团队分享(共17页).ppt 大数据云计算技术 Hadoop应用浅析(共16页).pptx 大数据云计算技术 Hadoop运维杂记(共21页).pptx 大数据云计算技术 暴风集团...
实战Hadoop 2.0:从云计算到大数据(第二版)
一、单选题 1、以下哪个步骤不属于数据的采集与预处理: A....B.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现 大数据导论:大数据技术单元测试与答案全文共5页,当前
1云计算及大数据 1.1云计算 1.1.1什么是云计算 什么是云计算 网络架构图中,网络的符号被一朵云彩表示,于是基于网络的计算方式就叫云计算了。 由于计算被一个服务集群负责,对外不透明,也有点云里雾里的意思。
优秀PPT课件:Hadoop:Google云计算的开源实现(Hadoop安装 HDFS使用 MapReduce编程 数据表HBase 分布式数据处理MapReduce ).ppt
大数据时代:高性能Hadoop集群与应用案例
深入云计算:Hadoop源代码分析(修订版)
一种基于Hadoop云计算平台大数据聚类算法设计.pdf
王家林的“云计算分布式大数据Hadoop实战高手...3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。
5.简述3种加密方式的概念意义,并说明非对称加密中公钥与私钥的作用 6.列举Hadoop生态环境的至少5个核心项目,并标明是什么? 7.描述配置项的含义 dfs.replication mapred.tasktracker.reduce.tasks.maximum dfs....
完整版 浙江大学大数据与云计算技术教程 云计算技术及应用 第4讲-云技术-02-云中数据处理-Hadoop(共51页).pdf 完整版 浙江大学大数据与云计算技术教程 云计算技术及应用 第5讲-云技术-03-云中数据处理-BigTable...
Hadoop云计算实验报告
大数据 分布式云计算hadoop最佳实践
云计算基础课件—Hadoop:Google云计算的开源实现 .ppt
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
资源名称:Hadoop云计算一体机实践指南内容简介:全书分为3篇:第1篇(理论部分)对云计算、Hadoop及Linux操作系统进行了简单介绍;第2篇(基础实践部分)主要详细介绍了cemOs系统的安装和集群的搭建、Hadoop集群的常用...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
1环境常规设置 问题 依次完成以下5个小题的任务 1) 设置IP为192.168.1.100,掩码为255.255.255.0,网关为192.168.1.1,并设置DNS为8.8.8.8主机名为master 2) 关闭防火墙 3) 配置ip为192.168.1.100的主机名为...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...