`
oywl2008
  • 浏览: 1003215 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

据挖掘十大经典算法(10) CART: 分类与回归树

 
阅读更多

据挖掘十大经典算法(10) CART: 分类与回归树

 

果一个人必须去选择在很大范围的情形下性能都好的、同时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话,那么Brieman, Friedman, Olshen和Stone(1984)提出的分类树方法是一个强有力的竞争者。我们将首先讨论这个分类的过程,然后在后续的节中我们将展示这个过程是如何被用来预测连续的因变量。Brieman等人用来实现这些过程的程序被称为分类和回归树(CART, Classification and Regression Trees)方法。


分类树
在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。


递归划分
让我们用变量y表示因变量(分类变量),用x1, x2, x3,...,xp表示自变量。通过递归的方式把关于变量x的p维空间划分为不重叠的矩形。这个划分是以递归方式完成的。首先,一个自变量被选择,比如xi和xi的一个值si,比方说选择si把p维空间为两部分:一部分是p维的超矩形,其中包含的点都满足xi<=si,另一个p维超矩形包含所有的点满足xi>si。接着,这两部分中的一个部分通过选择一个变量和该变量的划分值以相似的方式被划分。这导致了三个矩形区域(从这里往后我们把超矩形都说成矩形)。随着这个过程的持续,我们得到的矩形越来越小。这个想法是把整个x空间划分为矩形,其中的每个小矩形都尽可能是同构的或“纯”的。“纯”的意思是(矩形)所包含的点都属于同一类。我们认为包含的点都只属于一个类(当然,这不总是可能的,因为经常存在一些属于不同类的点,但这些点的自变量有完全相同的值)。

 

更多内容参阅:

http://www.core.org.cn/NR/rdonlyres/Sloan-School-of-Management/15-062Data-MiningSpring2003/338F02AD-0DD8-4199-8727-35FCF5A15B57/0/L3ClassTrees.pdf

 

http://www.cqvip.com/onlineread/onlineread.asp?ID=28180864

分享到:
评论

相关推荐

    优质文档 十大经典数据挖掘算法R语言实现 共28页.pdf

    6.CART:分类与回归树,下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝 7. KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。 8. Pagerank:是 google ...

    CART:分类和回归树(CART)C ++实现

    大车分类和回归树(CART)C ++实现目录介绍资料格式介绍CART是分类树和回归树的C ++实现,这是DM(数据挖掘)的著名算法。 这是此实现的源代码。资料格式培训和测试数据文件的格式为: ::...。 。 。 每行包含一个...

    数据挖掘18大算法实现以及其他相关经典DM算法

    CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接 KNN K最近邻算法...

    基于CART决策树数据挖掘算法的应用研究

    分类与回归树CART算法是数据挖掘技术中重要的算法。依据CART算法理论,采用类型变量求解决策树,并引入优化的分裂函数,然后利用基于类型变量的论域划分创建二叉树,抽取和筛选预测准则,从而为职能部门决策提供科学而...

    wKgADlzIAR6AOIY-AAnHtPtud1w385.pdf

    1. C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。...10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变 量空间的想法,第二个是用验证数据进行减枝

    java8集合源码分析-datamining-18algorithms:数据挖掘十大算法Java实现

    CART-分类回归树算法 Classification DataMining_ID3 ID3-决策树分类算法 Classification DataMining_KNN KNN-k最近邻算法工具类 Classification DataMining_NaiveBayes NaiveBayes-朴素贝叶斯算法 Clustering Data...

    论文研究-基于分类回归树CART的汉语韵律短语边界识别.pdf

    K-means聚类算法在数据挖掘领域具有非常重要的应用价值。针对K-means需要人工设定聚类个数并且易陷入局部极优的缺陷,提出了一种基于最近共享邻近节点的K-means聚类算法(KSNN)。KSNN在数据集中搜索中心点,依据...

    使用数据挖掘技术对心脏病的早期预测-研究论文

    我们使用了三种流行的数据挖掘算法CART(分类和回归树),ID3(迭代二分法3)和从决策树或基于规则的分类器中提取的决策表(DT),以使用大型数据集开发预测模型。 我们还使用了10倍交叉验证方法来衡量无偏估计。

    人工智能学习算法分类.pdf

    分类算法 (1).LR (Logistic Regression,逻辑回归⼜叫逻辑分类) (2).SVM (Support Vector Machine,⽀持向量机) (3).NB (Naive Bayes,朴素贝叶斯) (4).DT (Decision Tree,决策树) 1).C4.5 2).ID3 3).CART (5)....

    人工智能常用英文缩写.pdf

    CART:Classification And Regression Tree,分类回归树算法; MDL:Minimum Description Length,最⼩描述长度; REP:Reduced Error Ouring,错误率降低剪枝; RBF:Radial Basis Function,径向基函数; PCA:...

    matlab源码求一元函数-BigDataMining:大数据分析与数据挖掘百度云资源持续更新中,欢迎点赞starMin'sblog欢迎访问我

    CART-分类回归树算法 Classification DataMining_ID3 ID3-决策树分类算法 Classification DataMining_KNN KNN-k最近邻算法工具类 Classification DataMining_NaiveBayes NaiveBayes-朴素贝叶斯算法 Clustering Data...

    cart回归matlab代码-Machine-Learing-IN-BeiJing:Python和R&Matlab

    cart回归matlab代码 机器学习 这次来北京,主要还是想要自己能学一些东西,所以还是使用Matlab代码,所以我这里暂时就先用Matlab算法来计算,如果不行,我们再使用R语言来去计算 数据挖据的功能及应用 分类: 决策树...

    数据挖掘实验报告.docx

    实验内容 对所有窃漏电用户及真诚用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样本,使用CART决策树实现分类预测模型。 注意:数据的80...

    决策树DTC数据分析及鸢尾数据集分析.doc

    常见的算法包括:分类及回归树(Classifica tion And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林...

    基于数据挖掘的易腐食品组合运输与安全检查模型

    根据选择组合模型的原则,选择了神经网络算法,分类回归树算法,贝叶斯网络算法,分别对模型进行建模和组合,创新地建立了具有较高精度,鲁棒性和稳定性的组合模型。更好地解释以预测易腐食品运输变态监测的结果。 ...

    AI人工智能培训资料(培训PPT+示例代码).zip

    数据挖掘数据分析-5-分类3-决策树ID3 数据挖掘数据分析-5-分类3-C4.5-CART(选) 数据挖掘数据分析-5-分类4-神经网络 数据挖掘数据分析-5-分类4-bp算法(选) 数据挖掘数据分析-5-分类5-支撑向量机SVM 数据挖掘数据...

    统计学习方法_李航

    本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论...

    【毕业设计】基于大数据个性化音乐推荐算法分析.rar

    决策树算法的发展过程从C3.0(基于信息增益) CART(基于基尼系数) 提升树(AdaBoost) 梯度提升树(GDBT) XGBosot LightGBM算法。 基于决策树模型的推荐算法具有以下优点:(1)可以并行化训练;(2)能够处理...

Global site tag (gtag.js) - Google Analytics