`

为什么聚类不成功

 
阅读更多

现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。

1.  没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。

我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。

2.  没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类

3.  没有考虑分词,去除stop word

      比如一个tag是 A touching movie,分词后就是 touching   movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把 A touching movie整体当作一个

4.  没有考虑词干提取

     单复数形式,同义词,进行时,过去时态等等

 

结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。

分享到:
评论

相关推荐

    层次聚类算法C++

    层次聚类算法C++ VS2010 调试运行成功

    聚类融合算法综述

    在分类算法和回归模型中,正广泛而且成功地使用着融合方法,该方法能克服分类、回归中的不稳定 性,并给出较好的结果。在非监督机器学习领域,由于缺乏数据集的先验知识,所以分类和回归中的融合方法就 不能直接用于...

    k均值聚类算法

    采用k均值聚类算法对数据进行聚类,成功率达97%以上,代码采用matlab编写,下载后可直接运行。

    模糊核聚类算法

    自己写的, 关于模糊核聚类算法的函数,我是用来作多模型控制里面建模用的,虽然建模没成功,但是这个聚类算法还是成功的

    聚类分析,模糊集,适用于多维数据聚类

    在研究生期间所做的成功,成功将三位数据实现聚类,并把它运用到交通分类当中。-Cluster analysis, fuzzy sets, is applicable to multi-dimensional data clustering.During the graduate student success, success...

    论文研究-聚类融合方法综述.pdf

    在分类算法和回归模型中,正广泛而且成功地使用着融合方法,该方法能克服分类、回归中的不稳定性,并给出较好的结果。在非监督机器学习领域,由于缺乏数据集的先验知识,所以分类和回归中的融合方法就不能直接用于...

    kohonen网络聚类算法的源程序_用于网络入侵聚类分析_matlab

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

    归一化谱聚类算法

    采用谱聚类算法对数据进行聚类,该算法首先由吴恩达提出,聚类成功率达99%以上。代码采用matlab编写,下载后可直接运行。

    34行MATLAB实现k-均值聚类(k-means)和不同颜色散点图展示

    34行MATLAB代码实现k均值聚类,包含展示聚类成功后的散点图。

    c均值_聚类算法_matlab_kmeans

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

    论文研究-空间离散点的方向聚类研究.pdf

    经典的聚类方法(如划分方法、层次方法等)的聚类相似度由点与点之间的距离决定。但在空间数据的分布中,数据间的...以内蒙古某露天煤矿的实际测量点数据为例,使用该聚类算法成功实现对露天矿采场的测量点进行聚类。

    论文研究-基于动态聚类的文档碎纸片自动拼接算法.pdf

    针对碎纸机三种碎纸模式进行拼接复原,提出了一种基于动态聚类的文档碎纸片自动拼接算法,定义了匹配度矩阵计算两块碎片最合理的拼接方式,设计了一种基于碎纸片特征向量的动态聚类行聚类算法进行行初步聚类,根据...

    模糊聚类的图像分割_matlab

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

    论文研究-基于路网的LBSN用户移动轨迹聚类挖掘方法.pdf

    基于LBSN(基于位置的社交网络)中数据的地理和社交属性, 结合用户轨迹和好友关系, 有助于提高不确定轨迹聚类挖掘的效率。根据LBSN用户的好友关系特征, 引入评分函数, 对用户影响力进行排序, 找出其中的活跃用户; 在...

    论文研究-基于时间序列和任务调度的Web数据聚类算法.pdf

    为了实现Web服务请求数据的快速聚类,并提高...实验仿真结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,提出的算法在聚类时间、聚类精度、服务执行成功率上均获得了更好的效果。

    论文研究-谱聚类的现状及其在社会网络中的应用.pdf

    而这些特性使得传统的数据聚类方法并不能成功应用在社会网络中。相反,作为一个最流行的现代数据的聚类算法,谱聚类在对社交网络的问题提供了一种系统的,灵活实用的解决方案。理论和实验证明,谱聚类在寻找全局最优...

    太阳系行星的K均值聚类划分

    太阳系行星的K均值聚类划分,梁泽,张恩溯,本文将一种数据驱动聚类算法--“K均值聚类法”引入到天文学领域,使计算机利用人工智能,成功地实现了对不同星球类型的自动分类。

    基于matlab实现的kohonen网络聚类算法的源程序,最初用于网络入侵聚类分析,已测试成功.rar

    基于matlab实现的kohonen网络聚类算法的源程序,最初用于网络入侵聚类分析,已测试成功.rar

    遗传算法_matlab_聚类分析问题

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

    模式识别_动态聚类_k均值算法_matlab_画图分析_k-means_Clustering

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

Global site tag (gtag.js) - Google Analytics