数据挖掘是如何解决问题的
本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。2.1.1节中关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。
很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。
尿不湿和啤酒
超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?
为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。
按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一有价值的规律的。
Target和怀孕预测指数
关于数据挖掘的应用,最近还有这样一个真实案例在数据挖掘和营销挖掘领域广为流传。
美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
图2-1 Target怀孕预测指数示意图
Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。
如果不是在拥有海量的用户交易数据基础上实施数据挖掘,Target不可能做到如此精准的营销。我们将会在第10章具体分析Target的精准营销案例。
电子商务网站流量分析
网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行的统计和分析,其常用手段就是Web挖掘。Web挖掘可以通过对流量的分析,帮助我们了解Web上的用户访问模式。那么了解用户访问模式有哪些好处呢?
— 在技术架构上,我们可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络的拓扑设计,提高性能,在有高度相关性的节点之间安排快速有效的访问路径等。
— 帮助企业更好地设计网站主页和安排网页内容。
— 帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
— 帮助企业更好地根据客户的兴趣来安排内容。
— 帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。
人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都被保存在网站日志中。从保存的信息来看,网站虽然拥有了大量的网站访客及其访问内容的信息,但拥有了这些信息却不等于能够充分利用这些信息。
那么如果将这些数据转换到数据仓库中呢?这些带有大量信息的数据借助数据仓库报告系统(一般称作在线分析处理系统),虽然能给出可直接观察到的和相对简单直接的信息,却也不能告诉网站其信息模式及怎样对其进行处理,而且它一般不能分析复杂信息。所以对于这些相对复杂的信息或是不那么直观的问题,我们就只能通过数据挖掘技术来解决,即通过机器学习算法,找到数据库中的隐含模式,报告结果或按照结果执行。
为了让电子商务网站能够充分应用数据挖掘技术,我们需要采集更加全面的数据,采集的数据越全面,分析就能越精准。在实际操作中,有以下几个方面的数据可以被采集:
— 访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。
— 访问特征。包括停留时间、点击的URL等。
— 条款特征。包括网络内容信息类型、内容分类和来访URL等。
— 产品特征。包括所访问的产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。
当访客访问该网站时,以上有关此访客的数据信息便会逐渐被积累起来,那么我们就可以通过这些积累而成的数据信息整理出与这个访客有关的信息以供网站使用。可以整理成型的信息大致可以分为以下几个方面:
— 访客的购买历史以及广告点击历史。
— 访客点击的超链接的历史信息。
— 访客的总链接机会(提供给访客的超级链接)。
— 访客总的访问时间。
— 访客所浏览的全部网页。
— 访客每次会话的产出利润。
— 访客每个月的访问次数及上一次的访问时间等。
— 访客对于商标总体正面或负面的评价。
本文节选自《New Internet:大数据挖掘》
谭磊 著
电子工业出版社出版
相关推荐
数据挖掘主要解决的四类问题
本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。下面关于"啤酒和尿不湿"的故事是数据挖掘中最经典的案例。而target公司通过"怀孕预测指数"来预测女顾客是否怀孕的案例也是近来为数据...
用SQL Server2000构建数据挖掘解决方案.caj 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用1.kdh 数据挖掘与电力系统 12.caj 数据挖掘中知识管理与表达系统的设计与实现.caj 数据挖掘及其在通信侦察信号...
大工20秋《数据挖掘》大作业题目及要求.pdf大工20秋《数据挖掘》大作业题目及要求.pdf大工20秋《数据挖掘》大作业题目及要求.pdf大工20秋《数据挖掘》大作业题目及要求.pdf大工20秋《数据挖掘》大作业题目及要求.pdf...
摘要近年来,伴随着空间信息获取...空间数据挖掘就是为了解决这一科学问题而 提出的。该文在回顾已有空间数据挖掘规则的基础上,指出了空间数据挖掘过程中存在的主要问题,进而探讨了未 来空间数据挖掘的主要研究方向。
用SQL Server2000构建数据挖掘解决方案.caj 用于建模、优化、故障诊断的数据挖掘技术.caj 用于数据挖掘的贝叶斯网络.caj 用于电子商务中的数据挖掘技术研究.caj 用户访问模式数据挖掘的模型与算法研究.caj 用数据...
用SQL Server2000构建数据挖掘解决方案.caj 用于建模、优化、故障诊断的数据挖掘技术.caj 用于数据挖掘的贝叶斯网络.caj 用于电子商务中的数据挖掘技术研究.caj 用户访问模式数据挖掘的模型与算法研究.caj 用数据...
唐诗分析程序 1. 简介 唐诗分析程序主要是通过抓取互联网上的唐诗,然后进行数据的清洗,存储,数据分析,输出报告。 2. 背景 随着Java的发展,提供了流式处理(Stream)数据的能力,以及...锻炼应用技术解决问题的能力
Web数据挖掘中数据异构问题解决方法的研究.pdf
用SQL Server2000构建数据挖掘解决方案.caj 用于建模、优化、故障诊断的数据挖掘技术.caj 用于数据挖掘的贝叶斯网络.caj 用于电子商务中的数据挖掘技术研究.caj 用户访问模式数据挖掘的模型与算法研究.caj 用数据...
近年来,伴随着空间信息获取技术...空间数据挖掘就是为了解决这一科学问题而 提出的。该文在回顾已有空间数据挖掘规则的基础上,指出了空间数据挖掘过程中存在的主要问题,进而探讨了未 来空间数据挖掘的主要研究方向。
Clementine充分利用计算机系统的运算处理能力和图形展现能力,将数据挖掘方法、应用与工具有机地融为一体,成为内容最为全面,功能最为强大的数据挖掘软件产品,是解决数据挖掘问题的最理想工具。
数据仓库期末作业 - 数据挖掘分析报告 某药店常用药品信息数据挖掘解决方案 作 者 刘金龙 学 院 计算机信息管理学院 专 业 计算机科学与技术 年 级 2011 学 号 112103209 数据挖掘大作业结果分析报告全文共4页,当前...
数据挖掘导论 完整版本书全面介绍了数据挖掘的理论和方法,着重介绍如何用数据挖掘知识解决各种实际问题,涉及学科领域众多,适用面广。, 书中涵盖5个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每...
python数据挖掘入门与实践是一本Python入门数据挖掘技术指南,由澳大利亚计算机科学博士罗伯特·莱顿...通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践。
本文是有SPSSBI研究小组给出的关于使用统计分析和数据挖掘提升企业价值和盈利模式的五种途径
面向解决复杂工程问题的“大数据与数据挖掘”教学研究.pdf
数据挖掘主要解决的四类问题:分类、聚类、关联和预测,以及在电信行业的相关应用
利用数据挖掘算法解决聚类问题 采用了多种方式实现聚类 可以对聚类方式进行选择 供学习数据挖掘者参考