这是个信息“泛滥”的时代,大数据量司空见惯,企业处理大数据的需求也越来越大。本文梳理一下“大数据”的解决方案。
首先,关系型数据库和桌面分析或者虚拟化包不能处理大数据,相反,运行在数千台服务器上的大量并行软件需要做这个工作。
许多机构转向开源工具,比如Apache的 Hadoop来处理大数据。比如Twitter发送登陆信息到Hadoop,并直接写入HDFS,Hadoop文件系统。
Hadoop支持数据密集的应用部署在数千节点和数个PB, David Hill, Mesabi Group 表示。
但是,大数据在针对不同类型的应用时,确不能一概而论。比如Hadoop并不一定适合所有的案例,Hill警告说。
大数据的捕捉、存储、分析,依靠特殊的应用的特性,Hill强调。举例scale-out网络连接的存储EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频,会更好。
大数据处理的类型
大数据的处理,可以归为3个基本类型,Revolution Analytics的执行副总Mike Minelli表示,信息管理、商业智能,以及智能分析。
信息管理捕捉和存储信息,BI分析数据,看过去发生的情况,智能分析则是对于数据的预测。Minelli说。
Revolution analytics提供开源R语言和 Revolution R Enterprise,提供TB量级数据的高级分析。Revolution Analytics正在开发Hadoop连接器和R语言在Google的Map/Reduce框架上的能力。
处理大数据的工具
提供了处理大数据分析能力的专有软件包括 AsterData;IBM的专有软件Netezza ; Datameer, 建立在Apache的Hadoop上的专有软件,以及Paraccel。
IBM的Netezza,在它的InfoSphere产品中。Oracle 的Exadata,,以及EMC的Greenplum也是处理大数据量的专有工具。
EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。
处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。
开源工具VS专有工具
开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。Revolution Analytics的Minelli表示。
数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。
更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。
另外一个领域就是开源与专有工具的混合使用。
短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。
相关推荐
大数据平台调度工具、大数据、小海豚、海豚、dolphinscheduler、ds、大数据开源工具、调度平台、调度工具、大数据监控、流程化、工作流、hadoop、spark、数据采集、数据监控
大数据的开源工具_Pekka_Barck介绍.pdf
宜信敏捷数据中台建设实践,宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus、Wormhole、Moonbox、Davinci等,在技术社区内得到了广泛关注和好评。那么这些工具是如何在宜信内部应用的?它们和宜信数据...
开源大数据ETL工具的模块化组件构建技术研究.pdf
开源大数据ETL工具的模块化组件构建技术研究
说到处理大数据的工具,普通的开源解决方案(尤其是ApacheHadoop)堪称中流砥柱。弗雷斯特调研公司的分析师MikeGualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。MarketResearch的一份报告预测,到...
基于开源工具集的大数据网络安全态势感知及预警架构.pdf
由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它...
一个通用的开源工具集,集Web、Restful服务、分布式服务、分布式数据库、分布式事务、大数据、数据分析、云计算、人工智能、深度学习、机器学习、算法等为一体的通用开源解决方案,持续更新中。。。
一个通用的开源工具集,集Web、Restful服务、分布式服务、分布式数据库、分布式事务、大数据、数据分析、云计算、人工智能、深度学习、机器学习、算法等为一体的通用开源解决方案。。。
新加坡 上海 北京 公司概况 青岛 雅加达 专注于分析预测与行业应用的的大数据公司 深圳 业务1 业务2 业务3 提供基于大数据技术的预测性分析及商务智能解决方案 大数据平台、数据集成与准备工具、开源开发技术 自助...
一、单选题 1、以下哪个步骤不属于数据的采集与预处理: A....B.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现 大数据导论:大数据技术单元测试与答案全文共5页,当前
Nanocubes 是一个大数据可视化的工具,32Tb Twitter数据,在一台16GB内存的机器上流畅、交互式地可视化。运行 Nanocubes 你需要一个支持 WebGL 的浏览器,目前在 Chrome 和 Firefox 上测试成功,但开发主要基于...
0 积分下载;文件大小:64.6 M;清晰完整中文扫描版,529页,无书签。
CDH6全套资源安装包、CDH6、大数据平台、hadoop、spark、kafka、大数据技术、数据仓库、hive、hdfs、大数据技术架构、数据平台管理、开源大数据平台、大数据安装包、CDH安装教程
新加坡 上海 北京 公司概况 青岛 雅加达 专注于分析预测与行业应用的的大数据公司 深圳 业务1 业务2 业务3 提供基于大数据技术的预测性分析及商务智能解决方案 大数据平台、数据集成与准备工具、开源开发技术 自助...
《数据之魅--基于开源工具的数据分析》结合作者雅奈特多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书四部分19章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,...
当今世界,公司的日常运营经常会...我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。
storm是一个类似于Hadoop勺实时数据处理框架,也是一个非常有效的开源实时计算工具,通常被比作“实时的Hadoop”。 《大数据技术丛书:Storm实时数据处理》通过丰富的实例,系统讲解Storm的基础知识和实时数据处理...