最最最简单的URL聚类 - i'm beneo - ITeye博客

`

beneo

浏览: 54392 次
性别:
来自: 希伯來

最近访客更多访客>>

lzhfsailor

jin361612388

thinking

qq_25066957

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kalman03：顶坐拥4w女神而不倒！
深入理解EventBus的设计思想
beneo：大海lb 写道楼主，我想问下，就是在运行kmeans的时候那个 ...
一个基于Mahout与hadoop的聚类搭建
大海lb：楼主，我想问下，就是在运行kmeans的时候那个-c 如何指定 ...
一个基于Mahout与hadoop的聚类搭建
changchang：很好，收了~
RabbitVCS
chenchangqun11： 20岁技术就学这么好你是怎么学的？
看完后我沉默很久..所谓“优秀生”？..一篇转载，献给所有和我一样迷茫没有目标的人

最最最简单的URL聚类

博客分类：

文本挖掘

clustering mahout hadoop url http

阅读更多

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL

第一步：提取http链接

使用 Jsoup 来做

        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }

第二步：提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki，apache，org，confluence，display，mahout

第三部：聚类
参考一个基于Mahout与hadoop的聚类搭建

不要分词了，因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面，就可以了

聚类是帮你发现群体行为，以及为了后续的文本挖掘做准备工作的

不要期望太多

分享到：

mahout vector 的产生方式 | 一个基于Mahout与hadoop的聚类搭建

2011-09-23 22:57
浏览 2521
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Web日志挖掘中的用户聚类与URL聚类.pdf: Web日志挖掘中的用户聚类与URL聚类.pdf

最短距离聚类: 简单的聚类分析方法，采用欧式距离的最短距离聚类源程序。

聚类算法简单总结: 对聚类算法的简单总结。聚类分析的算法可以分为划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的...

聚类法(系统聚类法动态聚类法模糊聚类法): 聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。常见的聚类分析方法有...

C语言简单模拟聚类算法-K-means: 使用控制台黑框，利用随机点来显示聚类，回车键更新屏幕，显示本次聚类后的堆中心，逐次按下回车寻找最优中心点，最后呈现堆心与周围的分布结果。

聚类程序VC、聚类程序VC: 聚类程序聚类程序聚类程序聚类程序聚类程序

最短距离聚类介绍 txt文本: 最短距离聚类，有关资料最短距离聚类，有关资料最短距离聚类，有关资料

DPC_密度聚类_无监督聚类_dpc聚类_clustering_DPC: 聚类算法，密度聚类，高效聚类，无监督聚类，快速聚类

均值聚类_k均值聚类_K均值_K._聚类算法_writing6op_: k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。

聚类分析程序.rar_K._模糊C均值聚类_模糊聚类_聚类分析_聚类分析程序: 聚类分析程序包括系统聚类样品系统聚类变量系统聚类 K均值聚类模糊C均值聚类

一种能发现自然聚类的聚类算法: 摘要: 目前的聚类算法如K-means、DBSCAN等, 采用全局参数而难以发现数据的自然聚类, 提出一种新的分级聚类算法CluFNC, 能够在数据空间中发现内部聚类特征。该算法的参数包括网格大小、噪声阈值和神经节点数量。...

java实现聚类算法，Kmeans: K-means聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象...

类平均聚类方法类平均聚类方法: 类平均聚类方法类平均聚类方法类平均聚类方法类平均聚类方法类平均聚类方法

使用numpy实现的聚类算法（包括时空聚类算法）: MYDBSCAN：基于密度的聚类DBSCAN（Density-Based Spatial Clustering of Applications with Noise）算法的底层实现 MYAP：基于划分的聚类AP（Affinity Propagation Clustering Algorithm ）算法的底层实现--近邻传播...

代码复杂网络的聚类系数算法代码: 代码复杂网络的聚类系数算法代码代码复杂网络的聚类系数算法代码代码复杂网络的聚类系数算法代码代码复杂网络的聚类系数算法代码代码复杂网络的聚类系数算法代码代码复杂网络的聚类系数算法代码代码复杂网络...

层次聚类_层次聚类MATLAB实现_: 基本的层次聚类算法matlab实现简单明了是我以前上课时记下的笔记内容代码在15b上实验证实可用

AP.rar_ap聚类_聚类_聚类算法: 名称：AP聚类算法功能：聚类数据集类别：新聚类算法

fcm聚类算法研究fcm聚类算法，fcm聚类算法，: 是fcm聚类算法，文献，hd不要下载，可以看看，好好看看fcm聚类算法，fcm聚类算法，fcm聚类算法，fcm聚类算法，fcm聚类算法，fcm聚类算法，

DPC.rar_DPC_DPC聚类算法_dpc聚类_密度聚类算法_聚类算法: 名称：DPC聚类算法功能：聚类数据集类别：密度聚类算法

matlab模糊聚类程序动态聚类图程序.zip_MATLAB 聚类_matlab 聚类程序_matlab谱系图_模糊动态聚类_: 利用MATLAB做模糊聚类，并且画出系谱图

Global site tag (gtag.js) - Google Analytics