聚类Clustering -Clustering of synthetic control data

奔跑的羚羊

浏览: 570944 次
性别:
来自: 北京

最近访客更多访客>>

sagadan

rayoo

yyq5369

linziyuu

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mahout

Hadoop Java Apache 算法

1.下载Mahout
http://www.apache.org/dist//mahout/0.4/

2.解压
tar zxvf mahout-distribution-0.4.tar.gz

3.算法列表
./bin/mahout -h
显示出当前mahout支持的所有算法

聚类Clustering
Clustering of synthetic control data
Pre-Prep
1)下载输入数据，点这里
由60行60列组成

_time	_time+x	_time+2x	..	_time+60x
28.7812	34.4632	31.3381	..	31.2834
24.8923	25.741	27.5532	..	32.8217

..
..

35.5351	41.7067	39.1705	48.3964	..	38.6103
24.2104	41.7679	45.2228	43.7762	..	48.8175

..
..
2）启动hadoop
$HADOOP_HOME/bin/start-all.sh

3）将数据上传到hadoop
$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
创建测试目录testdata，并把数据导入到这个tastdata目录中（这里的目录的名字只能是testdata）

Perform Clustering
a.For canopy :

$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job

b.For kmeans :

$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

c.For fuzzykmeans :

$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job

d.For dirichlet :

$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

e.For meanshift :

$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

也可以直接在hadoop环境下运行

hadoop jar mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

Read / Analyze Output
1)查看所有输出文件

hadoop fs -lsr output

2）下载到本地

hadoop fs -get output $MAHOUT_HOME/examples

转入output目录下，

$cd MAHOUT_HOME/examples/output
$ls

如果看到以下结果，那么算法运行成功，你的安装也就成功了：
clusteredPoints clusters-1 clusters-2 clusters-4 clusters-6 clusters-8 data
clusters-0 clusters-10 clusters-3 clusters-5 clusters-7 clusters-9
3）单个的集群结果在output/clusters-i
4）所有集群汇总结果在output/clusteredPoints

结果是sequence格式的。如果直接在hdfs上查看，使用

 ./bin/mahout vectordump --seqFile output/data/part-m-00000

分享到：

聚类Clustering - 可视化样本聚类（Visual ... | 【译】mahout in action 1 初识Mahout

2011-02-24 10:30
浏览 4742
评论(5)
分类:企业架构
查看更多

5 楼巫Jane峡 2012-05-18

rjhym 写道

./bin/mahout vectordump --seqFile output/data/part-m-00000 执行报空指针错误。

可以使用SequenceFileDumper替代VectorDumper,结果无异常

4 楼 rjhym 2012-02-23

./bin/mahout vectordump --seqFile output/data/part-m-00000 执行报空指针错误。

3 楼此情此景 2011-03-06

知道啦！谢谢~呵呵

2 楼奔跑的羚羊 2011-03-04

./bin/mahout vectordump --seqFile
后面跟上clusters-i中的part-r-00000的路径

1 楼此情此景 2011-03-04

每个clusters-i中的part-r-00000怎么看？呵呵

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论