`
wusuoya
  • 浏览: 630588 次
  • 性别: Icon_minigender_2
  • 来自: 成都
社区版块
存档分类
最新评论

云时代的企业应用数据挖掘

 
阅读更多

 

随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据 量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分 布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

图1 企业面临着在不同数据源上进行数据挖掘的挑战
图1 企业面临着在不同数据源上进行数据挖掘的挑战

如何从海量应用挖掘出合理的数据

对于企业而言,如何将各种SaaS应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数 据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

云时代企业数据挖掘也面临如下挑战。

  • 挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。
  • 多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。 如图1所示。
  • 异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

适合云应用数据挖掘的模式建议

数据仓库建模阶段

为了应对SaaS应用大量异构数据,引入XML标记和交换数据。 由于XML能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样的不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。

引入MapReduce算法,提高数据抽取转换的效率。 MapReduce 算法是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。当前的实现方法是指定一个Map(映射)函数用来把一组键值对映射成 一组新的键值对,指定并发的Reduce(化简)函数用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce更适合如下场景。

  • ETL(数据提取转化加载)类的应用:从多个不同的源读取日志信息;分析以及清理日志数据;执行复杂的变换,比如“会话转换”;决定存储什么样的属性以及把信息装载到DBMS或者其他存储引擎中。
  • 复杂分析应用:这种挖掘类型的应用需要对数据进行多步骤的计算和处理,通常一个程序的输出会是另外一个程序的输入,因此很难用单个SQL语句来表示,这种应用场合下,MapReduce是很好的候选方案。
  • 半结构化数据:因为不需要对数据的存储进行格式定义,所以MapReduce比较适合处理半结构化数据,这些数据通常都是一些键值对。这些场合下,MapReduce非常适合做ETL的事情。
  • 快速实施的系统:完善和健壮的低成本开源解决方案是MapReduce最大的优点。
    图2 数据挖掘模式图
    图2 数据挖掘模式图

引入HDFS的分布式存储模式。 HDFS 系统简单,利于提高实施效率,适合海量数据挖掘。HDFS架构基于GFS体系架构(Google File System,简称GFS,是由Google 设计并实现的一个分布式文件系统,基于大量安装有Linux操作系统的普通PC构成的集群系统),但比GFS架构精简。GFS和HDFS都采用“单一主控 机+多台工作机”的模式,通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和性能。GFS允许文件被多次或者多个客户端同时打开以追加数据,以 记录为单位。而在HDFS中,文件只允许一次打开并追加数据。GFS中采用主从模式备份Master的系统元数据,当主Master失效时,可以通过分布 式选举备机接替主Master继续对外提供服务,而由于Replication及主备切换本身有一定的复杂性,HDFS Master的持久化数据只写入 到本机(可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害),出现故障时需要人工介入。GFS通过内部采用Copy-on-Write的 数据结构实现集群快照功能,而HDFS不提供快照功能。

引入Hive架构。 Hive 是建立在Hadoop上的数据仓库基础构架,是一种可以存储、查询和分析Hadoop中大规模数据的机制,提供了一系列工具用来进行数据ETL操作。 Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce开发者自定义Mapper和 Reducer来处理内建的Mapper 和Reducer无法完成的复杂分析工作。

数据挖掘阶段

引入数据分析中间件,提供数据处理、数据探索、数据建模及模型应用等一系列功能,开发多种数据挖掘算法和统计建模方法,并能够方便、快速、高效地处理海量数据,为商业智能的应用提供更方便、更灵活的工具和服务。

数据呈现阶段

BI作为云计算的一种SaaS服务提供给企业,建立行业数据库。面对林林总总的SaaS应用,BI同样可作为一种SaaS服务提供给企业。同时,数据挖掘 工具进行数据分析,可以发现重要的数据模式,这对构建知识库做出了巨大贡献——数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据“坟墓”转换成知 识“金块”。

数据挖掘模式图

我们设计的数据挖掘模式图如图2所示。

  • 企业数据层:企业数据来源于各类应用,如 SaaS应用、企业内部应用数据和专有云应用。
  • 数据仓库层:主要引入HDFS分布存储系统和Hive体系架构,通过MapReduce算法对数据梳理和提取。
  • 数据挖掘层:引入基于XML数据分析中间件,实现统计查询和数据挖掘功能。
  • 数据分析与BI应用层:将BI以SaaS服务的模式提供给企业使用。

总结

随着云时代的到来,企业面临的应用方式更加多元化,通过云的手段提供海量数据挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘应用的推广以及专业的行业知识库的构建。

分享到:
评论

相关推荐

    大数据与数据挖掘.doc

    2数据挖掘 数据挖掘开始于上世纪70年代,经历了电子邮件时代、信息发布时代、电子商 务时代、全程电子商务时代,是指从海量的、不完整的、模糊的实际应用数据中提取隐 含在其中的人们事先不知道的但又可能有用的...

    【推荐】云安全解决方案和实践集合.zip

    云时代企业安全建设 云上攻防的实践与思考 5G时代网络安全产业机会 基于AI的云安全治理 “云”网络空间的威胁对抗与实战 云安全技术趋势探讨 安全设备虚拟化 创新云数据中心安全中台保证云上工作负载安全 初探云安全...

    「安全建设」互联网时代,中大型企业云端文件管理最佳实践 - 漏洞挖掘.zip

    「安全建设」互联网时代,中大型企业云端文件管理最佳实践 - 漏洞挖掘 金融安全 WEB应用防火墙 大数据 网络安全 安全资讯

    数据采集在大数据中的应用.doc

    适用于大数据的技术,包括数据 采集、大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云 计算平台、互联网和可扩展的存储系统。下面我们就大数据采集方式方法做简单介绍。 2 数据采集的方式...

    大数据技术与应用.doc

    【多选题】 数据资源向信息、知识、价值转换的流程可以概括成5个环节:()()()()() 正确答案:[A,B,C,D] A: 数据采集 B: 数据存储 C: 数据处理 D: 数据分析与挖掘 E: 知识应用 4. 【判断题】 由于数据采集...

    大数据在旅游业中的应用分析报告.doc

    整个世界已经进入了"大数据时代",到了可以通过数据挖掘、数据的整合营销从而产 生巨大产业收益的时候了。这一时代不光给旅游服务企业,也给了很多相应以终端消费 者作为服务目标市场的行业挖金、掘金的可能性。除...

    纵观大数据 建模、分析及应用 pdf

    执教十年,经历了从数据挖掘到大数据的云卷云舒,一代代的技术更迭,不变的是对数据知识探索的执着初心。但是,咨询者众,待解惑者也不少,一一解答既无效率又没效果,因此在去年萌生了写本书的想法。与理论型书籍...

    产业大数据创新应用.docx

    在云数据之上构建各种应用,形成数据云服务和数据云应用,完成数据变现。基于云数据的应用,实现数据资产的归集与估值、征信定价、指数,完成数据金融化。 产业大数据创新应用全文共2页,当前为第1页。 产业大数据...

    大数据技术在火力发电厂的应用.docx

    大数据在火力发电厂中的应用 目前,大数据云平台应用于火力发电厂的事业中,能够将其数据信息进行综合存储、计算与分析,给企业的可持续健康发展起到了积极促进的作用和意义,有利于电力企业经营管理的进一步发展。...

    大数据应用案例分析报告.doc

    在如今这个大数据地时代里,人人都希望能够借助大数据地力量:电商希望能够借助大 数据进一步获悉用户地消费需求,实现更为精准地营销;网络安全从业者希望通过大数据 更早洞悉恶意攻击者地意图,实现主动、超前地...

    云上贵州大数据产业发展有限公司-招投标数据分析报告.pdf

    (大数据基础设施服务,数据处理与存储服务,信息技 术咨询服务,软件开发及信息系统集成服务,云平台服务,云应用服务,大数据相关增值服 务,大数据挖掘分析服务,数据交易交换服务,互联网信息服务,互联网接入...

    大数据产业链构成解析.doc

    现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想 ,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作, 并且往往需要大量的人工参与,因此数据采集和清洗...

    大数据的商业价值.pdf

    在运营商内部, 根据用户喜好推荐各类业务戒应用是常见的, 比如应用商店软件推荐、 IPTV 视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分析算法后,可以将之 延伸到商用化服务, 利用数据挖掘技术...

    规范性指导:基于AWS设计高效云应用程序

    本文的目标是面向云架构师,如何将移动企业级应用从一个固定的物理环境迁移到虚拟化云环境。本文的重点是如何构建一个新的云应用或现有应用程序迁移到云环境所涉及的概念,原则和最佳实践。作为云架构师,理解云计算...

    数据分析方案设计7要素.docx

    数据挖掘崛起 数据挖掘始于1990年代,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据...

    大数据财务分析实训总结.docx

    情景式案例教学,学数据相关基础理论体系及规模化生产型企业各部门业务与大数据结合的应用场景,让财会专业学生熟悉并体验企业各职能部门常用数据源类型、汇集方法、数据加工、挖掘分析、可视化类型等应用,可以初步...

    大数据的国内外研究现状与发展动态分析报告.doc

    大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强 的在线数据分析工具,以及数据可视化的产品呈现,数据挖掘的应用在营销、销售、人 力资源、电子商务等各个商业领域广泛开展,大数据为个性化...

    大数据报告.doc

    商业自动化导致海量数据存储,但用于决策的有效信 息又隐藏在数据中,如何从数据中发现知识,以数据挖掘为代表的大数据分析技术应运 而生。 1、社交网络的公共性 社交网络是大数据的重要来源,大数据的社会应用与...

Global site tag (gtag.js) - Google Analytics