`

大数据量的走向趋势

 
阅读更多

时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。

显然,大数据是一种创新,它在任何时候都知道你在哪里。我们可以以有效方式利用这些数据,而且已经看到了市场需求。

日前,在北京举办的大数据世界论坛上,内存计算、实时查询、有效的存储管理、智能挖掘分析,成为了众多IT人士关注的焦点。

用户需求——海量+实时分析

来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。

而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。

“我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。

显然,和NUMA架构(非一致性存储访问)相比,MPP的优势在于更适合复杂的数据总和分析与处理。当然它也需要借助支持MPP的数据库系统来屏蔽节点之间的负载均衡与调度复杂性。

同时,颜阳也给出了BI和ETL工具选型建议——兼容性、操作性、功能性、展现力、维护性。他表示,在数据中心,每一个转换要保证数据的完整性和准确性,要进行安全性的管理和控制,这些都要通过开发工具加上适度的编程来实现。如果开发团队对这个工具的理解和整合程度不好的话,最后的数据仓库的数据会形成很多垃圾,甚至造成很多错误的数据出现。因此,要兼顾五个方面去开展。

大数据并不等于IT重构

本次大会传递出来的另一个信息是,对真正需要大数据的企业而言,大数据的需求并不等于IT重构

实际上,并非所有的数据都需要进行分析,对企业而言,核心在于找出关键的数据,并运用适合MPP系统的相干数据,得到一些结构化的数据,而一些非结构化的数据,可以用Hadoop进行处理。

另一方面,大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。

目前,不管是IBM、EMC还是SAP都推出了自己的Bigdata Total solution,从中对比我们可见一斑。

IBM——数据仓库一体机

IBM将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”据了解,Netezza一体机是一个小型的、成集成度很高的多机并行处理环境。其架构基于MPP,由两个Hosts系统接受查询请求,查询语句将分散成几十个或者上百个分片,传给第二层,第二层的每一个单元是一样的(内部名称S-Blades分区内存),再把每一个分片看成MPP环境中的每一台机器,中间的网络构成MPP网络。

当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。如果数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。

EMC——自服务数据仓库

Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。

EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。比如写一段R代码,并把R代码进行分享,同时看到别人的评论,可以随时随地的进行自己的工作。

SAP——内存计算+开放平台

SAP在此次大会上提出了开放的内存计算平台HANA,据SAP解决方案和架构部总经理张志琦介绍,HANA将成为SAP未来的平台,未来所有的应用都会发布在HANA平台之上,并且用作实时分析。而HANA将主要用于实时处理大量交易数据的软件,包括数据建模、数据和生命周期管理、安全、运营的工具,基于行业标准为多个接口提供支持。

“内存比磁盘计算快1000000倍,传统数据库磁盘读取速度是5毫秒,内存数据库磁盘读取速度是5纳秒。用户可以利用内存高速的性能,更快速的获取数据、汇总数据、分析数据。此外,大数据时代,一台服务器不一定够,用户可以通过分而治之的方式将动态的服务器分到不同的节点上,快速的进行数据分散计算、数据分散汇总、获取更快速的结果。每台服务器还有更多的CPU,可以在总的内存计算中更给力。所有的数据都可以通过分布式的环境。”

张志琦表示,“HANA将是一个开放的平台,SAP将和业务伙伴等在HANA之上开发应用,体现更多的支持。SAP HANA平台将支持更多的内存应用程序,比如报表、运营报告、能力分析加速器,更多的获取价值。HANA不仅仅是分析应用,更多的是一个业务应用。我们希望企业可以在不需要IT人员关注的情况下就可以获得信息的获取。这本身是SAP HANA平台提供的能力。”

数据分析职业未来很吃香

随着大数据的流行,可以预见的是,数据分析师将是将来最热门的行业之一,大量的行业比如政府、能源行业、互联网行业都需要数据科学家,而这些数据科学家要不断的提出关键性、对业务有重大启示性的问题。阿里巴巴目前已经有一百多个数据分析家,他们不同的部门都在对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。

Informatica企业数据集成产品管理总监郑玮表示,大数据分析师可能会有越来越大的需要,可能是IT组织的一部分,也可能是业务组织的一部分。从互联网的情况来看,提供用户的价值,可以发掘很多用户价值,比如汽车销售等等有直接的销售影响。在世界的各个地方,尤其是一些数据比较多的、比较成熟的行业中,会有大量的数据分析、数据科学家的需求。

Teradata天睿公司首席客户官周俊凌谈到,企业必须要有一些专注于数据研究的科学家,一旦有了数据科学家,企业需要对数据科学要进行相关培训,了解相关的业务。

IBM硅谷实验室大数据项目总监Steven Sitze则认为,现在一些大的企业都有数据分析师。而这些数据分析师现在并没有分析大量或者子类型的数据,这在发展工具上会有很大的机会。对企业而言,光有一个大数据的平台是不够的,要有一些发展的工具帮助他们利用来展示大数据的分析展示能力。

观察:大数据产业才刚刚上路

对数据存储厂商来说,不管是大数据还是海量数据还是有不少挑战存在,首当其冲的是,他们必须要强化关联式数据库的效能,增加数据管理和数据压缩的功能。

因为过往关联性数据库产品处理大量数据时的运算速度都不快,需要引进新技术比如Hadoop来加速数据查询的功能。另外,数据存储的厂商也开始尝试不只采用传统硬盘来存储数据,像是使用快速闪存的数据库、闪存数据库等,都逐渐产生。

另一个挑战就是传统关联性数据库无法分析非结构化数据,因此,并购具有分析非结构化数据的厂商以及数据管理厂商,是目前数据存储大厂扩展实力的方向。

同时,数据管理的影响也在于对数据安全的考量。IDC软件市场分析师吴乃沛表示,大数据对于存储技术与资源安全也都会产生冲击。首先,快照、重复数据删除等技术在大数据时代都很重要,就衍生了数据权限的管理。

举例来说,现在企业后端与前端所看到的数据模式并不一样,当企业要处理非结构化数据时,就必须制定出是IT部门还是业务单位才是数据管理者。由于这牵涉的不仅是技术问题,还有公司政策的制定,因此界定出数据管理者是企业目前最头痛的问题,而这一切,对大数据而言,不管是技术还是应用都才刚刚上路。

分享到:
评论

相关推荐

    大数据分析pdf.pdf

    ——大数据引领我们走向数据智能化时代 大数据分析 大数据的定义理解 什么是大数据 大数据时代的背景 1 大数据的定义理解 大数据的"4V"特征 2 大数据的构成 3 大数据时代的背景 半个世纪以来,随着计算机技术全面...

    大数据分析怎么做?如何做好数据分析报告?.docx

    企业数据分析报告不仅能够对整体市场环境和宏观经济走向做判断,还可以深入到生产经营的每个环节、服务消费的每个客户去了解真实情况。例如营销数据分析可通过制定精细化广告投放策略来缩减成本提高销售转化。而...

    浅谈时尚大数据分析.docx

    2 时尚大数据分析典型案例 2.1 谷歌流行趋势预测 谷歌积累了大量来自全球用户的搜索日志,2016年谷歌公司发布了时尚趋势报告Fashion Trends。基于2014-2016年的时装搜索日志,谷歌分析了2016年的流行趋势,包括当年...

    赛迪顾问-中国大数据高性能分析研究报告2013

    本文旨在研究中国大数据分析产业链重点环节,摸清其中“数据 分析”环节的产业发展现状及未来趋势,比较主流厂商解决方案,了解市场竞争格局。希望 通过本研究,为众说纷纭的产业界拨清迷雾,帮助各级政府主管部门及...

    计算产业发展简史及趋势

    随着数字化程度的加速发展,世界逐步走向智能化,计算已经不仅仅局限于数据中心,也不仅仅局限于为走向了全栈全场景,我们称之为计算3.0时代,而这个时代的主要特征就是“智能”,所以我们也称之为“智能计算”。

    未来移动通信发展趋势.doc

    未来移动通信发展趋势 随着当今科学的不断发展,技术的不断更新,未来移动通信的发展也将越来越引起人 们的重视,第三代移动通信(3G) 正在走向成熟, 其发展应用前景不容质疑。 未来移动通信的研究,越来越被重视, 并...

    数据挖掘报告.docx

    它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化...

    Hadoop大数据开发.pptx

    由于互联网的数据较为集中,数据量足够大,数据种类较多,因此未来互联网数据应用将会有更多的想象空间,包括预测流行趋势,消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的...

    2020的物联网(物联网10年远景)

    1.第一是收集和交换数据量的爆炸,有时被称为艾可萨洪泛或海量数据。商业预测表明,到2015年被存储的数据将会超过220艾可萨字节(10的18次方)。由于当前的网络不适应这种指数增长的流量,必须全面重新构思目前组网和...

    数据库课程设计 物业管理

    计算机可以为物业管理的日常事物进行快速而准确的处理,极大的减少了人工的工作量,在很大程度上提高工作效率,从而让物业管理公司把更多的精力投入到更好的为业主服务上面。 在物业管理中,计算机能帮助物业管理...

    大数据背景下数据分析服务的市场分析.docx

    我国近年来互联网、大数据技术从普及逐步走向纵深发展,推动了人工智能的覆盖率,大数据存储量逐年上升,同比增速保持40%左右,由于我国人口基数大,互联网覆盖率高,数据产生量居全球之首,且数据增幅高于全球平均...

    2021中国移动互联网秋季大报告85页.pdf

    数据显示,截止2021年9月,中国移动互联网月活用户达到11.67亿,月人均单日使用次数和时长分别达到115.1次、6.6小时,持续加深的使用习惯,推高了生活数字化程度,金融理财月活用户量(11.53亿)、移动社交(11.32亿...

    asp.net的物业管理系统源码+数据库+ppt.rar

    计算机可以为物业管理的日常事物进行快速而准确的处理,极大的减少了人工的工作量,在很大程度上提高工作效率,从而让物业管理公司把更多的精力投入到更好的为业主服务上面。 在物业管理中,计算机能帮助物业管理...

    大数据时代下的档案数据挖掘.doc

    在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选 取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋 势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案...

    综放工作面瓦斯来源及分布规律研究

    通过对N2105采煤工作面实测数据分析,确定了采空区、煤壁及落煤瓦斯涌出量在整个单元体所占比例。从工作面每个单元瓦斯浓度实测结果发现,沿走向从煤壁至采空区,瓦斯呈现"马鞍"形分布;而沿采煤工作面倾向上,瓦斯浓度呈...

    深信服云计算全景图.pptx

    数字化转型面临的IT建设趋势与要求 数字经济要求企业加速数字智能化改造 单一稳态应用走向混合,敏态应用大量增多 互联网的分布式架构已经逐步走入企业 数据规模与关系的变化驱动数据治理流程优化 边缘计算技术快速...

    石家庄市地下水资源环境现状及保护措施

    介绍了石家庄市近几年地下水环境质量状况及特征,通过分析地下水现状及其变化,对水质进行检测,使各项超标污染有了数据量;通过质量标准评价,对石家庄现有地下水质级别进行统计,进而进行污染趋势分析,掌握了主要污染物...

    AT-3000能耗管理系统在绿建验收中应用广泛

    系统以日报表、趋势图、曲线图等形式统计各类能耗的消耗走向,便于实时直观掌握能源消耗情况。 手动录入:对无法采集的数据提供手动录入功能,便于用户掌握建筑物总体能耗情况。 数据存储:进行历史数据管理,所有...

    商业银行-大数据建设规划.docx

    (一)建设大数据基础设施,完善全行数据体系架构 构建大数据平台,实现更广泛的半结构化、非结构化数据集中采集、存储、加工、分析和应用,极大地丰富我行的信息资源,同现有的企业级数据仓库和历史数据存储系统...

    U型综采工作面采空区流场数值模拟

    研究表明:工作面向采空区漏风主要发生0~20 m范围内,漏入采空区的风量在此区域内有部分返回工作面,而大部分漏风量在工作面倾向140~160 m返回工作面;采空区风速等值线在倾向方向上并不对称;在采空区走向方向,漏风风速...

Global site tag (gtag.js) - Google Analytics