Mahout 提供了常用算法的程序库,可以基于分布式做数据挖掘. 常见算法 回归算法:用于预测(日期交易量预测等等)。 比如身高和体重作为x,y坐标,给出一组人的身高体重,形成作为图上的一个个点(学习集), 计算出一条直线或者抛物曲线,能够离所有点综合距离最小。 那么可以任意给出身高,根据给出的曲线预测出相应的体重。 ------------------------------------------------------------- 分类器 依据以往的数据样本,做出一个分类器(或者说分类函数),对现有的数据进行分类。 通常是二分函数 贝叶斯分类器 概率分类器 常用于垃圾邮件的分类,将邮件内容进行分词,发现词语高频率属于垃圾邮件的词汇, 判断出此邮件是否为垃圾邮件的概率。 --------------------------------------------------------------- 聚类(K-Means) 根据数据的共同特性,进行归类。 比如动物的进化树,通过分析DNA做聚类,可以计算出哪些生物是有亲缘关系。 ------------------------------------------------------------------ 频繁数据挖掘 依据以往数据样本,计算出物品共同出现的概率。 可以做推荐系统 ------------------------------------------------------------------- 传统数据分析工具的困境 R,SAS,SPSS等典型应用场景为实验室工具 处理的数据需要先读入内存,因此数据量受限于内存,无法处理海量数据。 使用Oracle数据等处理海量数据,但缺乏有效快速专业分析功能。 可以采用抽样等方法,但有局限性。比如聚类,推荐系统无法使用抽样 解决方向:hadoop集群和Map-Reduce并行计算 Mahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化)。 目的是帮组开发人员建立具有机器智能的应用程序。 1.频繁模式挖掘 2.聚类算法 3.分类器 4.推荐系统 5.频繁子项挖掘
相关推荐
#资源达人分享计划#
基于Hadoop与Mahout云数据挖掘推荐研究.pdf
这里是我个人的bug,没有被解决
#资源达人分享计划#
Hadoop-Mahout 使用 Mahout 在 Hadoop 上进行推荐、集群和分类
最新的HADOOP2.4.1版本不支持MAHOUT 0.9,本MAHOUT 0.9是经过修改官方MAHOUT 0.9源代码后的源码包,可直接导入ECLIPS中编译、安装,也可通过命令行进行。
推荐搭配与Maven + hadoop和mahout一起推荐您可以从《行动中的Mahout》一书中了解更多信息。
mahout0.9的源码,支持hadoop2,需要自行使用mvn编译。mvn编译使用命令: mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests
Hadoop,Hbase,mahout三者兼容版本的API文档,这三个API版本对应的Hadoop组件相互兼容,很方便的
9.Hadoop入门进阶课程_第9周_Mahout介绍、安装与应用案例.pdf
mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...
mahout0.9 的jar包,支持hadoop2(此为第一部分)
Hadoop数据挖掘工具Mahout.ppt
mahout0.9 的jar包,支持hadoop2,此为第二部分jar包。具体调用方式参考lz相关博客
mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...
mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...
爱尔兰共和军 IRA 是一个关于在 Hadoop 和 Mahout 上开发的演示项目。 它一直在尝试几种算法。 如随机森林、逻辑模型。
第三部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》
mahout0.9不能运行在hadoop2中,会报interface错误,用此新编译后的包,可实现mahout+hadoop2的运行环境,其中包括编译后的包及源码。
mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...