本月博客排行
年度博客排行
-
第1名
青否云后端云 -
第2名
zw7534313 -
第3名
大家都说我很棒 - liyihz2008
- wy_19921005
- gengyun12
- hbxflihua
- e_e
- luxurioust
- dbagirl
- zysnba
- robotmen
- Alsmile
- gaozzsoft
- jywhltj
- cpongo1
- leslie26
- qepwqnp
- 解宜然
- cuityang
- sichunli_030
- gashero
- zhangdaiscott
- fantaxy025025
- vipbooks
- wallimn
- gdpglc
- ssydxa219
- ranbuijj
- javashop
- jickcai
- hanbaohong
- johnsmith9th
- appalese
- gaojingsong
- weiyides
- 淡看人生
- java-007
- zhangyi0618
- AVI
- laiyangdeli
- xpenxpen
- liunancun
- 龙哥IT
- conkeyn
- nychen2000
- lyndon.lin
- ouanui
- silverend
- jveqi
最新文章列表
mahout vector 的产生方式
根据wiki
mahout 产生 vector 的方式有2种:
#1 from lucene index to vector
$MAHOUT_HOME/bin/mahout lucene.vector <PATH TO DIRECTORY CONTAINING LUCENE INDEX> \
--output <PATH ...
最最最简单的URL聚类
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL
第一步:提取http链接
使用 Jsoup 来做
Document doc = Jsoup.parse(stream.getText())
Elements links = doc.select("a[href]")
for (Element eleme ...
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。
第一步:搭建hadoop平台。
我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubun ...