最新文章列表

python sklearn-06:聚类-k-means

聚类是用于找出不带标签数据的相似性的算法。  译文链接:https://muxuezi.github.io/posts/6-clustering-with-k-means.html 1.K-Means算法 由于具有出色的速度和良好 ...
vinking934296 评论(1) 有10307人浏览 2017-02-13 16:17

基于坐标位置(Location)的聚类——特殊的kmeans

需求:     在手机地图上,公交或者自驾,经常请求导航的起点终点。如何知道哪些是热点区域(特别是时间相关的热点区域)? 方法1:基于搜索的 ...
lvdccyb 评论(0) 有11535人浏览 2014-09-24 21:22

数据挖掘笔记-聚类-Canopy-2

Canopy并行化处理在Mahout里面有很好的实现,网上有很多人都做过相关的分析,有的写的很详细,本来只想看看Mahout Canopy源码就好了,但还是觉得自己记 ...
fighting_2013 评论(0) 有620人浏览 2014-06-13 12:45

数据挖掘笔记-聚类-Canopy-1

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和 ...
fighting_2013 评论(0) 有780人浏览 2014-06-12 18:02

K-均值聚类算法(集体智慧编程)

上篇博客中讲到的分级聚类算法为我们返回了一棵形象直观的树,但是这个方法有两个缺点。 1.在没有额外的投入的情况下,树形视图是不会真正将数据拆分成不同组的。 2.该算法的计算量非常惊人,因为我们必须计算每两个配对项之间的关系,并且在合并项之后,这些关系还得重新再计算,所以在处理很大规模的数据集时,该算法的运行速度会非常缓慢。   K-均值聚类完全不同于分级聚类,因为我们会预先告诉算法希望生 ...
home198979 评论(0) 有3338人浏览 2014-03-18 15:11

Java 对图片像素进行K-means聚类

        聚类是机器学习中很重要的一部分,是一种无监督学习,本次选择K-means算法对图片的像素进行聚类         K-means,顾名思义,K-均值,首先 ...
wh137795233 评论(0) 有3660人浏览 2014-03-06 19:55

Java实现的朴素贝叶斯分类器

目前的算法只能处理结果只有两种的情况,即true or false. 多分枝或者是数字类型的还无法处理。 用到的一些基础数据结构可以参考上一篇关于ID3的代码。    这里只贴出来实现贝叶斯分类预测的部分: package classifier; import java.util.ArrayList; import java.util.HashMap; import java.u ...
RangerWolf 评论(3) 有15920人浏览 2014-02-15 16:48

Weka聚类算法的两个实现算法

在这里将使用Weka自带的K-means以及EM算法对同一份数据进行聚类。 目前使用的是自带的数据集。我也不太清楚这样聚类的效果如何 sigh...   Weka Version: 3.7.10   K-Means K-均值算法 import java.io.File; import weka.clusterers.SimpleKMeans; import weka.core ...
RangerWolf 评论(0) 有9158人浏览 2014-02-07 23:08

Weka入门实例之KMean聚类实现

/*上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下,由聚类算法来判别样本 ...
ganliang13 评论(0) 有6243人浏览 2013-10-21 20:15

K-Means算法--聚类算法

在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 问题 K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了我们的K-Means算法(Wikipedia链接) K-Means ...
wbj0110 评论(0) 有1334人浏览 2013-07-31 17:30

Clustering: Canopy

Canopy 本文介绍聚类算法:canopy   该算法的主要特点:无需设置集群个数   算法的步骤 1. 设置参数T1和T2, 其中T1>T2, 参数敏感 2. 在样本集和钟任务一个样本P, 计算P与所有Canopy之间的距离,初始的时候Canopy为空,直接把P     当成一个Canopy.  如果P与某个Canopy距离在T1以内,则将P认为是一个Canopy。如果在T ...
zhou85xin 评论(0) 有1743人浏览 2012-05-08 15:12

K-MEANS聚类算法

K-MEANS 算法     输入聚类个数 k ,以及包含 n 个数据对象的数据库,输出满足方差最小标准的 k 个聚类。     k-means 算法接受输入量 k ;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得 ...
chuanwang66 评论(0) 有1546人浏览 2011-10-06 22:20

一个基于Mahout与hadoop的聚类搭建

    mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。     第一步:搭建hadoop平台。 我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubun ...
beneo 评论(2) 有8774人浏览 2011-09-23 22:37

Mahout 和 Mahout in Action

  Mahout 和 Mahout in Action    1 Mahout 简介 网站:http://mahout.apache.org/   Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。   该社区最初基于 Ng et al. ...
bluky999 评论(0) 有2251人浏览 2011-09-05 15:07

关于 “推荐引擎” 的dw文章收集

这不是一篇文章,只是一个ibm dw上的文章list - 关于推荐引擎和apache mahout的:   探索推荐引擎内部的秘密 第 1 部分: 推荐引擎初探 第 2 部分: 深入推荐引擎相关算法 - 协同过滤 第 3 部分: 深入推荐引擎相关算法 - 聚类   http://www.ibm.com/developerworks/cn/web/1103_zhaoct ...
bluky999 评论(1) 有1964人浏览 2011-08-03 20:18

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics