mahout版本:0.9
hadoop版本:2.3.0
基于决策树步骤如下:
1.基于已有数据形成描述文件
2.训练建树
3.分类预测
数据集:
http://nsl.cs.unb.ca/NSL-KDD/
下载KDDTrain+.TXT和KDDTest+.TXT
具体的应用步骤:
1.上传数据到hdfs上:
hadoop put *.TXT /user/test/df/input/
2.描述文件生成:
hadoop jar your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.tools.Describe -p /user/test/input/KDDTrain+.TXT -f /user/test/input/data.info -d N 3 C 2 N C 4 N C 8 N 2 C 19 N L N
3.训练建树:
hadoop jar your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.mapreduce.BuildForest \ --data /user/test/input/KDDTrain+.TXT \ --dataset /user/test/input/data.info \ --partial \ --nbtrees 200 \ --output /user/test//output/ \ --no-complete \
4.分类预测:
hadoop jar your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.mapreduce.TestForest \ --input /user/test/input/KDDTest+.TXT \ --dataset /user/test/input/data.info \ --model /user/test/output/forest.seq \ --analyze \ --mapreduce \ --output /user/test/predictions/ \
5.可以查看打印出决策树:
hadoop jar your.jar org.apache.mahout.driver.MahoutDriver org.apache.mahout.classifier.df.tools.ForestVisualizer \ --dataset /user/test/input/data.info \ --model /user/test/output/forest.seq \
相关推荐
NULL 博文链接:https://snv.iteye.com/blog/2007843
用于测试mahout中的决策树 ,即Partial Implementation用到的测试jar包。所谓的测试其实也只是把相应的数据可以打印出来,方便单机调试,理解算法实现原理而已。
【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解 -- 配套源码
Mahout 贝叶斯算法根据模型分类无标签数据,具体参考http://blog.csdn.net/fansy1990/article/details/37991447
Oozie工作流在Mahout分布式数据挖掘中的应用.pdf
使用Mahout,你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。, 本书出自Mahout核心成员之手,得到Apache官方推荐,权威性毋庸置疑。作者凭借多年实战经验,为读者展现了丰富的...
mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...
基于java讲解了mahout的主要的三种算法,聚类,分类,相似度,非常适合初学者的学习
mahout,朴素贝叶斯分类,中文分词,mahout,朴素贝叶斯分类,中文分词,
9.Hadoop入门进阶课程_第9周_Mahout介绍、安装与应用案例.pdf
Mahout 官方文档,简单介绍Mahout概念及其安装和简单使用
mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout
maven_mahout_template-mahout-0.8
使用mahout机器学习改进solr查询结果
从官网上用svn check out出来的,希望有用。
MAHOUT实战 MAHOUT IN ACTION
mahout-0.3.tar
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。 机器学习 • 机器学习是人工智能的一个分支,...
Mahout支持K-Means等聚类算法,在此zip包中已经有打好jar包的资源,不需要用户再打jar包,可以直接使用。
mahoutAlgorithms源码分析 mahout代码解析