`

大数据不是只有Hadoop

阅读更多

这段时间接触大数据相关项目比较多,自然有些体会和感触。感觉到自己之前对于这个领域的认识并不全面,甚至有点盲目,然后在具体项目或者概念认证阶段走了不少弯路。但好在在这些项目过程中认识接触了不少合作伙伴的兄弟姐妹们,从他们那里学到了不少东西。现在试着把这些心得整理下分享给大家,希望对于各位对大数据感兴趣的童鞋们有点帮助吧。这篇PPT主要有两个部分:一个部分是讲大数据应用场景以及和传统方案的区别等等,还有一个部分是介绍国内大数据一些解决方案提供商和一些实际应用案例的。这里只贴出第一部分,希望能够帮大家理清些大 数据的概念性问题。


上图中,精确数据是指每条数据都有着准确的含义和确定的价值,表达很明确的信息。比如,制造业的一条生产记录。传统关系型数据库以处理这类数据。并基于此类数据通过复杂逻辑分析推演出业务价值为强项。

大数据时代数据的特点是大量模糊数据。单条数据没有确定的价值和明确的含义。比如,一个网页的点击记录。Hadoop的优势是能对海量模糊数据进行汇总排序比对等操作,把他们变成有意义的数据,再通过海量的样本比对等方式归纳产生业务价值。

所以,从本质上说这是两种针对不同场景不同对象的不同技术。如果要采用Hadoop去取代RISC架构的数据库,BI应用。那么必须打破原来企业经典的沿用几十年的数据结构,重新定义数据模型,表结构等等。还是我以前提过的,就是要重新从头练另一门武功。但那样下来效率是否一定就会比以前高, 效果是否一定比以前好,从我几个项目试验的结果来看也并不乐观。

但是,在某些情况下大数据技术也能比RISC架构更好的解决一些传统的结构化数据问题,比如ETL。在一些行业里,ETL工作往往需要一个很长的处理流程。利用Map/Reduce技术可以大大缩短ETL的工作流程,提高效率,而且随着数据量的不断增长,这种优势会越来越明显。所以说,是否用Hadoop去尝试替代原先的RISC架构,关键还是看数据量是否够大以及数据类型是否多样化。


以上这张图取自BI Reasrch。以数据查询的延迟性需求为纵轴,数据量和结构化程度为横轴列出了Hadoop技术和传统关系型即RDBMS的应用场景区别。Hadoop 之所以会出现其实就是为了应付海量的非结构化数据的离线分析的。所以其应用场景也基本是以此类为强项,即数据量大,结构化程度低,分析的实时性要求不高。当然随着其技术的发展,外沿通过不同组件如Hive的补充有所拓展。但要其完全取代原先的RDBMS基本是不可能的事情。

正如第一张图所说,大数据时代,没有一种方案是可以包打天下的。企业内部未来也必将是多种方案并存来处理各类不同类型数据的环境。下面试着将目前数据库的几类应用场景分分类,同时列出了每一类国内外的一些解决方案名字。国外的方案我为了简单起见,只列出特性比较鲜明的。没有写Exadata是因为它有点属于混合方案,把它简单定位在一个领域有点不太合适。而且国内可以和它具备相同类型的方案也没有,就先不提了。改天有空我再整理下我对于Exadata的一 些粗浅认识给大家来喷一下。 关于国内方案,我列出的是仅限于我知道的或是合作过的方案提供商,当然还有很多遗漏的。当然也有些我认为特色不鲜明没有什么核心技术的也就不提了。这里只列出他们的名字和专注领域类型,详细的一些介绍就不在这里贴出来了,反正他们都可以在新浪微博里找到,呵呵。


当然,上图所列出的场景所针对的解决方案也不是唯一的。一些场景是多个方案都可以胜任的。

比如Mongo DB也可以做MAP/Reduce的工作。Hive能够为Hadoop体系提供SQL的接口等等

最后,再谈一下我对国内大数据解决方案提供商的一些总体感觉。当然,还是那句话,这些观点只是在我接触过的几个方案中得出的,并不代表国内总体的情况,我没有这么多的精力去了解,也没有这个能力。这些感觉仅供参考。


关于适宜客户群,我上面说的也只是我个人的一些建议。我觉得,这些国内解决方案的供应商,需要通过一些实际企业应用案例实施的磨练,以及一些合作伙伴的帮助,才能真正走向成熟,走向商用,去挑战那些国外的知名产品。我觉得从目前来看,技术不是问题,路线方向也没有什么错误。关键是 对自身的规划和技术走向商用,走向产品化流程化的运作能力。我也真心希望国内的那些大企业大公司能够给国内的这些有技术有想法的方案提供商一些机会,让他们能够积累经验,成长壮大。

先写这些吧。还有一部分关于国内那些大数据方案同国外方案的对比,以及Intel Hadoop方案同Cloudera的对比,目前我写的主要还是针对我们公司内部分享的用途,就不对外公开了。有兴趣的朋友我们下次可以口头讨论。还有几个我自己亲身参与的行业案例,回头如果得到那些公司许可了再公开给大家分享吧。


ref:http://datacenter.watchstor.com/news-140637.htm
  • 大小: 40.4 KB
  • 大小: 32.1 KB
  • 大小: 44.1 KB
  • 大小: 28 KB
分享到:
评论

相关推荐

    Hadoop大数据平台构建、规划大数据平台集群教学课件.pptx

    hadoop集群只有一个节点,因此hdfs的块复制将限制为单个副本。 在单个节点上运行NameNode、DataNode、JobTracker、TaskTracker、SeconderyNameNode 这5个进程。 完全分布模式 在多个节点上运行。 使用分布式文件系统...

    大数据 Hadoop 框架

    在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。 多样化 (Variety) 多样化是指数据类型众多。通常来说,传统数据属于...

    Informatica大数据 大机遇.

    Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。...企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica 可提供数据集成平台和领导力,为企业提供全程帮助。

    百度翻译源码java-Big-Data-Hadoop-and-Spark-Developer:大数据/SCALA/HADOOP

    它基于一种新颖的数据模型,它通过函数表示数据并通过列操作处理数据,而不是像 MapReduce 或 SQL 这样的传统方法中只有设置操作。 - 分布式处理和实时分析平台。 与大数据生态系统中的许多流行技术(Kafka、HDFS、...

    1大数据概述《大数据云服务》.pdf

    大数据技术成熟度曲线 大数据概念 Apache Hadoop组织认为大数据是一组规模庞大 的数据集,传统的计算方法无法在可接受的时间范围 内获取、储存、处理它们。 咨询公司高德纳(Gartner)认为大数据是一种体量 巨大、...

    浅谈大数据生态圈.pptx

    HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1的数据,你引用的是

    hadoop大数据处理例子

    关于常用的一个hadoop的python脚本代码,包括两种字典,一种是file分发的,一种是靠输入并且,一起经过shuffle排序,再进行计算的。限于文件大小限制,只有代码,不包含字典文件,所以不能直接运行,请见谅

    hadoop入门书籍1

    hadoop的入门书籍,本人认为一共有以下五本书比较好: 1.云计算资料大全(了解云计算者必读).pdf 2.Hadoop开发者入门专刊 ...由于上传资料大小的限制,本包内只有前3本书,后两本书在本人资源页:hadoop的入门书籍2中。

    大数据运维技术第3章 平台的基础环境配置课件.pptx

    3.1.1 实验环境下大数据Hadoop平台集群网络;对于实验环境下Hadoop集群网络需考虑地址规划、连通性。由于实验环境下数据负载较小、可靠性要求不高,链路一般采用单链路连接。IP地址规划在同一网络中,一般设定地址为...

    完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记(共63页).pdf

    目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。 9. 数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较...

    基于Hadoop的大数据处理系统.pdf

    该模式并没有充分发挥分布式计算的优势,因为集群中只有⼀台 主机,但是该模式下可以测试Hadoop及相关环境变量是否配置正常。 Pseudo-Distributed Mode Pseudo-Distributed Mode即伪分布模式,它是单机集群模式。...

    大数据PPT材料.docx

    此外,英特尔还拥有类似于英特尔发行版 Hadoop 这样的开源分布式架构以及相关的软件工具如编译器、函数库等,英特尔已经形成了完整的大数据解决方案。英特尔提供经过验证的方法和工具来优化 Hadoop 部署,包括具有...

    大数据与化学教育.doc

    这些数据库含有上百万的化合 物及其分析数据,但是这些数据并不是大数据,其大小最多只有TB量级。美国杜兰大学 Gibb团队预测在不久的未来,化学工作者们将会有一个数据管理系统,这个系统将会自 动分析化学文献,并...

    高频大数据解决方案.pptx

    关键特性: 内置异常恢复/HA功能 9 分区就是复制的单位 事务复制操作(不是更改记录)使用Active/Active 同步复制方式 应用只有在所有复制节点都提交(或者回滚)后才会收到成功(或者失败)的响应 高频大数据解决...

    4399大数据笔试题.pdf

    即StoreFile底层就是HFile HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File 7.Scala语⾔的闭包描述哪⼀项不是正确的? 8.Kafka⾼吞吐的原因? 答案: 顺序读写磁盘,充分利⽤...

    Hadoop集群部署研究.docx

    Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。而学习计算机这类实践性很强的学科,部署平台是学习的基本要求。纸上谈兵终觉浅,只有部署好平台才能已最快的方式熟悉计算机各组件。因此我对...

    FusionInsightHD华为大数据平台.pdf

    FTP-Server服务可以部署在多个节点上,每个节点上只有⼀个FTP-Server实例,每个实例只有⼀个FTP Server进程。 Hive 建⽴在Hadoop基础上的开源的数据仓库,提供⼤数据平台批处理计算能⼒,能够对结构化/半结构化数据...

    大数据开发技术.pdf

    FC 也有 选择谁作为 ActiveNN 的权利,因为最多只有两个节点,目前选择策略 还比较简单(先到先得,轮换)7.JournalNode 高可用情况下存放 namenode 的 editlog 文件. 在 CentOS 环境下,按照伪分布方式安装和配置 ...

    Hadoop各组件详解(HDFS篇)

    1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了 2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上, 它的意义在于读取文件时可以...

    大数据必看经典书籍:大数据从入门到深入书籍推荐.pdf

    以上就是今天为⼤家推荐的⼤数据必看经典书籍,⼤数据的学习,不管是书籍理论的学习,还是实际的编程实战,都是对于⼤数据技术的锻 炼,只有掌握好了⼤数据技术,才能真正在⼤数据⾏业⽴⾜发展.

Global site tag (gtag.js) - Google Analytics