`
beneo
  • 浏览: 54392 次
  • 性别: Icon_minigender_1
  • 来自: 希伯來
社区版块
存档分类
最新评论

最最最简单的URL聚类

阅读更多
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL

第一步:提取http链接

使用 Jsoup 来做
        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }



第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki,apache,org,confluence,display,mahout


第三部:聚类

参考一个基于Mahout与hadoop的聚类搭建

不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了

聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的

不要期望太多
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics