`
FanfanWing
  • 浏览: 62098 次
  • 性别: Icon_minigender_1
  • 来自: 澳门
社区版块
存档分类
最新评论

数据挖掘模型简述

阅读更多

今天去探访了一家航空货运客户,了解了一些需求,是一个很标准的数据仓库项目。现有的面包黄油系统(业务系统)有很多,foc,icargo,xx等等,现在他们做统计、预算要用到一批报表,报表的数据源都是手工从各个系统的查询界面抓取到excel里面,然后再把excel手工制作成报表的样子。
好一个恶梦般的报表制作过程啊,数据仓库正是为了解决这个恶梦而产生的。但是老板今天没有着重介绍关于数据仓库的东西,而是引导他们认识“模型”这个东西,我想原因大概有两个:
1)挖掘更多的需求。
他们手工制作那批报表是几个小姑娘在做,客户“低估”了小姑娘的价值,也同时低估了这个系统的价值,只有挖出更多的需求才能赚钱。
2)推出关键竞争力:模型
一起来竞争这个项目还有两家公司,我们只是候选人之一,所以得有有竞争力的东西拿上台面来。老板选择了“模型”,这个竞争力刚在前不久的一个项目中胜出了,那家客户对老板提出的模型很感兴趣,所以选择了我们。
那什么是“模型”?
例子就是今天提到油价对他们成本的影响,他们估计油价占成本的50%左右,而且油价非常不稳定,所以导致收益也跟着波动,于是这里的模型就是收益随油价波动的一个相关曲线,继而可以设定油价预警线,在这个油价的时候收益可能只有5%,所以需要预警了,这个是只有一个油价因素的简单模型,实际情况得加入货物重量,飞行时间,维修费用等等因素建立一个互相制约的模型,进而可以根据某几个因素的变动从而对其他因素作出调整以达到收益最大化。
这个idea看起来很诱人,先不管它,再来看看数据挖掘中是怎么对模型作出定义和解释的。
很不幸,在data mining中他们不叫做模型,而是叫做模式(pattern),不过还好,名字不同,意义相通。
DM的功能就是:指定的DM任务中要找的模式,DM任务又分为描述(descriptive)和预测(predictive),那dm就是指定描述和预测的模式。也是说模式是dm的一个目标,模式经过评估和表示后就是知识,dm这个知识发现过程(kdd)也就结束了。
模式包括
1)概念/类描述:特征化和区分
比如顾客的概念包括:bigSpenders和bugetSpenders,这两个名词就是一个概念,每个概念都有它自己的特征,这就是特征化,每个概念都有用来区分和其他概念不同的东西,这个就是区分。
dm找到这种模式可以做什么?比如特征化后发现购买国产mp3的顾客都是bugetSpender,比如象我。
2)关联分析(association analysis)
关联分析就是发现关联规则(association rule)
关联规则是形如 X=>Y 的东西,即 A1C A2^ ...^Am => B1^ B2^ ... ^Bn 这种形式,其中Ai(i属于[1,m]) Bj(j属于[1,n])是属性-值对(attribute-value pairs),X=>Y 解释为:“满足X中的条件的数据多半也满足Y中条件”
比如:age(x,20...29) ^ income(x,20k...29k) => buys(x,"ipod") [support=2%,confidence=60%]
//support是支持度,就是所有数据中符合这条规则的数据占比
//confidence是置信度,就是满足规则左边条件的客户60%的可能买ipod.我买的是meizu的,但是不属于那另外的40%,-_-
最近在做规则评分的项目,用上了jboss rules (drools),这条规则用drools的drl语法就是:
When
        c:Customer(20<=age,age<=29 , 20000<=income,income<=29000)
then
        c.buys(new Mp3("ipod"));
drools里面的规则的置信度都是100%的 -_-
dm中把以上属性或谓词(predicate,例如buys这个动作)称之为纬度,于是上面这条规则就是多维关联规则(multidimensional association rule)了,好拉风的名词。
3)分类(classification)和预测(prediction)
    分类和前面的“类描述”很容易混淆。
    分类是:找出描述并区分数据类或概念的模型(model)或函数,以便能用模型预测类标记为未知的对象类。
    导出模型(derived model)是基于训练数据(training data,就是已知数据)的分析,它可以用多种形式来表达,比如分类(if-then)规则,判定树(decision trees),数学公式,神经网络(neural networks)
     分类可以用来预测数据对象的类标记,当被预测的值是数值数据时,通常称之为预测。
    4)聚类分析(clustering analysis)
     过程:本着最大化类内的相似性,最小话类间的相似性的原则进行聚类或分组
    5)孤立点分析
    孤立点(outlier):和一般的不一样的那些家伙。在一些应用中,比如欺诈分析,罕见的事情反而更有趣。孤立点分析也成为孤立点挖掘(outlier mining)
   6)演变分析(evolution analysis)
        描述行为随时间变化的规律和趋势,并对其建模。这个在计量经济学里面专门有时间序列分析来整。
     OK,就这些了,了解了这些模式对数据挖掘也就有了一个大概的了解了,因为dm也有人称之为模式分析,大致的过程就是发现上面这些模式或者运用这些模式,还不一定全用上。

     回到今天俺老板力推的模型,实际上就是一个关联分析,这个我在学计量经济学的时候还整了个关于各种电脑配件价格和一些市场因素的关联小模型来忽悠过老师,不过建立一个收益、成本因素的关联模型来给客户就不是那么好忽悠了。关于忽悠,dm中也有介绍,就是模式是不是有趣(interesting)的。怎么衡量是否有趣呢,有两个比较重要的指标,就是前面提到的confidence和support.
    这次客户对我们的idea的评价是很有意思,看起来也就是很有趣了,不过只有建立模型并找到模式才能知道他们的confidence和support是多少了,希望是真正的有趣。

分享到:
评论

相关推荐

    数据挖掘简述及R语言基础

    数据挖掘简述及R语言基础数据挖掘简述及R语言基础数据挖掘简述及R语言基础

    广工2017数据挖掘复习资料

    1、简述数据挖掘的过程 (1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据 (2)数据集成:将多个数据源中的相关数据结合到一起 (3)数据选择:根据数据挖掘的目标选择待处理的数据 (4)数据转换:将...

    数据挖掘考试复习资料(简答部分)

    1、简述数据挖掘的过程 (1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据 (2)数据集成:将多个数据源中的相关数据结合到一起 (3)数据选择:根据数据挖掘的目标选择待处理的数据 (4)数据转换:将...

    基于多Agent系统的Web数据挖掘技术

    在简述了几种主要的数据挖掘技术的基础上,提出了一种基于多Agent系统的w曲数据挖掘模型,进一步分析了系统组织和成员间的协作,并测试了其挖掘效果。测试结果显示,此项技术的挖掘效果具有较好的准确率和覆盖率。

    CRISP-DM数据挖掘实施方法论

    CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题本身,而不是技术层面上。CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程

    Stacking:机器学习集成模型之堆叠各种模型及工具源码-机器学习

    目前,大型的数据挖掘比赛(如Kaggle),排名靠前的基本上都是集成机器学习模型或深度神经网络。 将训练好的所有基模型对整个训练集进行预测,第$ j $个基模型对第i个训练样本的预测值将作为新的训练集中第$ i $个...

    1大数据课堂测验.doc

    、数据挖掘、模型预测和结果呈现等。 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开 发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大 数据应用、大...

    大数据课堂测验.doc

    、数据挖掘、模型预测和结果呈现等。 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大 数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数 据安全等)。 ...

    GIS空间分析考试复习资料2.doc

    14、地理空间数据挖掘典型方法? 7 15、空间分析的研究对象? 8 16、空间分析的研究目标? 8 17、我国常用的坐标系统,有什么区别? 9 18、地理空间问题可分为哪四类? 10 19、尺度的涵义? 10 20、无级比例尺GIS? ...

    数据库原理及应用复习重点

    数据库原理及应用复习重点 数据库原理及应用是计算机科学中的一门重要课程,涵盖了数据库的基本概念、设计、实现和应用等方面的知识。...数据挖掘的应用包括商业智能、科学研究、医疗卫生、金融服务等领域。

    模式识别原理及应用

    模式识别得到了迅速发展, 并取得了丰富的理论成果, 其应用领域也己扩展到了文本分类、 语音识别、 图像识别、 视频识别、信息检索与数据挖掘等领域. 由于模式识别理论具有重要的学术价值和广泛的应用领 域 因而...

    商业智能,企业性能的驱动力

    \"商业智能\"藉以提取、整合、挖掘、分析企业数据进而帮助管理者回答以上棘手问题。本文首先阐述了商业智能的产生及其定义,其次阐述了商业智能是企业性能的驱动力,接着阐述了商业智能的应用趋势,最后介绍了金蝶...

    大数据的存储管理技术.doc

    1.3 对数据服务的种类和水平要求高 大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求 也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚 的数据中,挖掘其更深...

    互联网文件资源索引系统的设计和实现

    本文在简述了互联网资源的基础上,阐述了图书馆开展互联网文件资源索引服务的重要意义,并对互联网文件资源索引库建设方式进行了讨论,重点对互联网文件资源索引系统模型进行了设计,应用数据挖掘理论,采用JAVA技术...

Global site tag (gtag.js) - Google Analytics