K-means
算法
一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method
)、层次方法(hierarchical
methods
)、基于密度的方法(density-based methods
)、基于网格的方法(grid-based methods
)、基于模型的方法(model-based methods
).k-means
算法属于划分方法中的一种。
K-means
算法的整个流程:首先从聚类对象中随机选出K
个对象作为类簇的质心(当然了,初始参数的K
代表聚类结果的类簇数),对剩余的每个对象,根据它们分别到这个K
个质心的距离,将它们指定到最相似的簇(因为K-means
是利用距离来量化相似度的,所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”)。然后重新计算质心位置。以上过程不断反复,直到准则函数收敛为止。通常采用平方误差准则,定义如下:
其中,E
代表的意思是所有类簇中各对象到其所属类簇质点平方误差和.
K:
聚类结果类簇个数
Ci:
第i
个类簇
P
:类簇中聚类对象
mi:
第i
个类簇的质心
K-means
的优点和不足:能处理大型数据集,结果簇相当紧凑,并且簇和簇之间明显分离。计算复杂性O(tkn) t:
迭代次数、K
:聚类数 n:
样本数;但是
1)
该算法必须事先给定类簇数和质点,簇数和质点的初始值设定往往会对聚类的算法影响较大。
2 )
通常会在获得一个局部最优值时停止,
3 )
并且只适合对数值型数据聚类,
4)
只适用于聚类结果为凸形的数据集,K-means
方法不适合发现非凸面形状的类簇,或者大小差别很大的簇。
5)
对“
噪音”
和孤立点数据敏感,少量的该类数据对质点的计算会产生极大的影响。
关于K-means的代码实现网上有很多,java版的本人自己也实现了,有需要则可以留下MAIL。:)
分享到:
相关推荐
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为...
自己照着做的一些kmeans练习,适合新手看
第五章聚类分析—K-means聚类
聚类分析中K-means算法综述
基于聚类分析的K-means算法研究及应用.pdf 基于聚类分析的K-means算法研究及应用.pdf
k - means聚类分析算法Python实现,并以鸢尾花数据集为例进行聚类演示
聚类分析-k-means聚类方法及其Python实现
聚类算法,用于实现多类数据的聚类分析,K-means是其中的一种
数据集:Iris数据集 ...数据描述:Iris数据集包含150个鸢尾花模式样 本,其中 每个模式样本采用5维的特征描述 利用所学K-means聚类分析方法,对 Iris数据集进行聚类分析,并利用已知的样本类别标 签进行聚类分析评价
平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和广告卖点等特征,将渠道分类,找出每类渠道的重点特征,为业务讨论和数据分析提供支持。...
k-means聚类分析,用于聚类分析算法,距离聚类
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 本代码提供...
基于k-means聚类分析房价问题(昆明房价)(源码+实验报告)。其中包含爬虫、聚类分析、数据可视化等源码,以及实验报告。采用python进行编程,对链家网资源进行爬取和分析
K-means聚类算法的性能依赖于距离度量的...针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。
实验五 K-Means聚类算法.ipynb
基于k-means聚类算法的研究,黄韬,刘胜辉,本文首先分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机��
对文本进行聚类,文本预处理-->构造特征向量-->聚类,压缩包内含有实验用语料亲测可用, 谢谢支持。
提供了k-means多维数据的聚类分析matlab源代码代码
基于K-means聚类算法的图像分割 算法的基本原理: 基于K-means聚类算法的图像分割以图像中的像素为数据点,按照指定的簇数进行聚类,然后将每个像素点以其对应的聚类中心替代,重构该图像。 算法步骤: ①随机选取...
关键词:K-means 算法、光伏聚类、数据分析、MATLAB平台 参考文档:《基于改进 K-means 聚类的风光发电场景划分》(部分参考) 简介: 本研究聚焦于光伏曲线聚类的模型,采用了改进后的 K-means 算法,以提高聚类...