`

聚类与分类区别

 
阅读更多

      分类(classification ):找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。


      分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。二者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。

      要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。

      不同的分类器有不同的特点。有三种分类器评价或比较尺度:

           1)预测准确度;

           2)计算复杂度;

           3)模型描述的简洁度。

 

      预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。

      另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据 


     

      聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。
当前,聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

<script type="text/javascript"></script>

1
0
分享到:
评论

相关推荐

    分类和聚类的区别

    分类和聚类的区别

    聚类与分类的区别.pdf

    。。。

    聚类与分类的区别.docx

    。。。

    模糊聚类算法介绍 模糊算法的思想及分类

    聚类分析是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性。 2. 模糊聚类算法的分类 模糊聚类算法可以分为两大类:Crisp c-Partition和Fuzzy ...

    聚类和分类的区别.pdf

    。。。

    聚类和分类的区别.docx

    。。。

    R语言K-means聚类分析绘图(含数据)

    两者主要区别在于,分类是将一组数据根据不同的类区分,已经知道有哪些类,也就是数据已经有了类的标签。而聚类是一种事先不知道有多少类,通过算法学习,分出来了一些类别。因此,分类跟聚类分别属于有监督学习和无...

    聚类的经典方法K-means.pptx

    该PPT 共25页,首先梳理聚类和分类的区别,然后描述K-means的具体实现步骤,最后做出总结。

    均值聚类算法

    将得到的结果与(b)中的结果进行比较,并解释差别,包含迭代次数的差别。 (g) 测试的类别数目和初始值为:c = 3, 1m (0) = (0,0,0)t , 2 m (0) = (1,1,1)t , 3m (0) = (−1,0,2)t ,进行实验。 (h) 测试的类别...

    聚类分析和判别分析(doc 44)

    聚类分析(Cluster Analysis)和判别分析(Discriminant Analysis)有相似的作用,都是起到分类的作用。但是,判别分析是已知研究对象分成若干类,并已取得一批已知类别的样品(观测数据)的基础上,根据某些准则对...

    SPSS 实用教程 聚类分析与判别分析PPT教案.pptx

    SPSS 实用教程 聚类分析与判别分析是统计学中经常使用的分类统计分析方法。主要内容有层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成 Q 型聚类和 R 型聚类。 聚类分析是统计学中...

    聚类分析经典算法讲解及实现.docx

    聚类分析与分类的区别 ------------------------ 在数据挖掘领域中,聚类分析和分类是两种不同的技术。分类是指根据已有的类别标签来对数据进行分类,而聚类分析则是将数据对象归类到一起,形成不同的簇。聚类分析...

    spss使用教程聚类分析与判别分析PPT教案.pptx

    "SPSS 使用教程聚类分析与判别分析 PPT 教案" 本资源是关于 SPSS 使用教程聚类分析与判别分析的 PPT 教案,主要内容包括层次聚类分析、快速聚类分析和判别分析。它为统计学中经常使用的分类统计分析方法提供了一份...

    管理决策模型与方法——聚类分析PPT课件.pptx

    管理决策模型与方法——聚类分析PPT课件 聚类分析是数据挖掘和机器学习中的一种重要技术,旨在发现数据中的结构和模式,以便更好地理解和描述数据。聚类分析可以分为两种:判别分析和聚类分析。判别分析是指已知...

    应用多元统计分析习题解答-聚类分析报告.doc

    判别分析和聚类分析的区别在于,判别分析是在已知有多少类与是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。判别分析是根据一定的判别准则,判定一个样本归属于哪一类,而聚类分析是对样品或...

    多元统计:聚类分析.ppt

    两种类型没有本质区别,在实践中人们更感兴趣的是QQ 型聚类。 系统聚类法是聚类分析的一种方法,它包括系统聚类、K-均值聚类、有序样品聚类等。系统聚类法的基本思路是将样品分成不同的类别,使得每个类别内的样品...

    K-均值聚类算法研究

    关于对生活中各种各样的数据的聚类分类问题已经成为众多学者的研究热题之一。聚类和分类的区别在于,聚类没有任何先验知识可循,要通过数据自身的特点,将数据自动的划分到不同的类别中。聚类的基本形式定义为“在已给...

    灰色聚类分析讲义PPT课件.pptx

    灰色白化权函数聚类主要用于检查观测对象是否属于事先设定的不同类别,以区别对待。 灰色关联聚类的步骤包括: 1. 首先,确定观测对象和特征数据。 2. 计算出每个观测对象的绝对关联度,得到上三角矩阵。 3. 取定...

    数据挖掘中的模糊聚类分析.pdf

    Zadeh 在 1965 年提出了模糊集的概念,模糊集是一种边界不分明的集合,模糊集与普通集合既有区别又有联系。对于普通集合而言,任何一个集要么属于该集合,要么不属于该集合,有明确的边界,对于模糊集合,一个元素...

    影像聚类:k均值&&ISODATA聚类算法

    这是模式识别的课程作业,有k均值聚类算法和ISODATA聚类算法,正对遥感影像或者图片进行聚类。写的算法较为粗糙,还请大家多多指教!

Global site tag (gtag.js) - Google Analytics