`

Mahout: build 0.9 support hadoop2.3.0

 
阅读更多
mvn  clean package -Dhadoop2.version=2.3.0 -DskipTests
mvn  clean package -Dhadoop.version=2.3.0 -DskipTests
mvn clean package -Dhadoop.profile=200  -DskipTests


The above commands will not work. Actually, you should download patch and patch mahout0.9 to support hadoop2 using the below build command

mvn clean install -Dhadoop2 -Dhadoop2.version=2.3.0 -DskipTests=true

 

So, I change to use current trunk codes (1.0-snapshot)

#svn co http://svn.apache.org/repos/asf/mahout/trunk mahtout1.0

#mvn clean install -Dhadoop2 -Dhadoop2.version=2.3.0 -DskipTests=true

 

Run example in mahout

1. start hadoop cluster

2.# mahout recommenditembased --input mahout/item.txt --output mahout/ --booleanData true -s SIMILARITY_COOCCURRENCE

 

 CLASS=org.apache.mahout.driver.MahoutDriver

    for f in $MAHOUT_HOME/examples/target/mahout-examples-*-job.jar $MAHOUT_HOME/mahout-examples-*-job.jar ; do
      if [ -e "$f" ]; then
        MAHOUT_JOB=$f
      fi
    done

But a error occures



 

rowsimilarityjob doesn't clean it's temp dir, and fails when seeing it again

 https://issues.apache.org/jira/browse/MAHOUT-834

When during the media time, i delete temp/weights in hdfs maually. and the job works well.
The input is likes
1,2
1,3
1,5
2,1
2,2
2,4
3,3
3,4
4,5
4,2
 The output likes:
1	[4:2.0,1:1.0]
2	[5:2.0,3:2.0]
3	[2:2.0,5:1.0,1:1.0]
4	[3:2.0,1:1.0,4:1.0]
 

 -------------------------

#mahout  command could run examples in mahout. The default props files in /path/to/mahout1.0/src/conf/

the entrence of mahout command is org.apache.mahout.driver.MahoutDriver

#mahout recommenditembased --input mahout/item.txt --output mahout/ --booleanData true -s SIMILARITY_COOCCURRENCE

will invoke class org.apache.mahout.cf.taste.hadoop.item.RecommenderJob which in now in mahout-mrlegacy dir

which is located in mahout/src/conf/driver.classes.default.props

org.apache.mahout.cf.taste.hadoop.item.RecommenderJob = recommenditembased

 

 

 

 

 

References

https://issues.apache.org/jira/browse/MAHOUT-1329

  • 大小: 134.3 KB
分享到:
评论

相关推荐

    mahout0.9 支持hadoop2.2.0(2,共5个压缩包)

    mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...

    mahout0.9 jar包支持hadoop2

    "mahout-buildtools-0.9.jar"则是构建工具,用于创建和打包Mahout项目,对于开发和贡献Mahout的开发者来说,这是一个必不可少的组件。 总的来说,Mahout 0.9版针对Hadoop 2的优化,使得它能够更好地适应大规模数据...

    mahout0.9 支持hadoop2.2.0(1,共5个压缩包)

    mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...

    mahout0.9 支持hadoop2.2.0(4,共5个压缩包)

    mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...

    mahout0.9 支持hadoop2.2.0(3,共5个压缩包)

    mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...

    mahout0.9 支持hadoop2.2.0(5,共5个压缩包)

    mahout0.9仅支持hadoop1.x,编译好的这个包支持hadoop2.2.0.由于上传文件50M的限制,采用分卷压缩的形式,包括三个包:mahout-mahout-distribution-0.9.zip,distribution-0.9.z01,mahout-distribution-0.9.z02,...

    mahout0.9源码(支持hadoop2)

    mahout0.9的源码,支持hadoop2,需要自行使用mvn编译。mvn编译使用命令: mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

    mahout0.9 jar支持hadoop2

    mahout0.9 的jar包,支持hadoop2,此为第二部分jar包。具体调用方式参考lz相关博客

    Hadoop-Mahout:使用 Mahout 在 Hadoop 上进行推荐、集群和分类

    《Hadoop-Mahout:基于Hadoop的大数据处理与机器学习实践》 Hadoop-Mahout 是一个基于Apache Hadoop的开源项目,专注于提供大规模的数据挖掘和机器学习算法。这个项目的目标是创建易于使用的、可扩展的机器学习库,...

    mahout-distribution-0.9.tar.gz

    "mahout-distribution-0.9.tar.gz"是Apache Mahout的0.9版本的发行包,包含了完整的源代码、文档和所需的依赖库。 **一、Mahout的背景与目标** Apache Mahout项目始于2008年,旨在简化大规模机器学习过程,提供可...

    mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar

    Apache Mahout是一个基于Apache Hadoop的数据挖掘库,专注于大规模机器学习算法的实现。这个压缩包包含的是Mahout项目不同版本的核心库,分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。...

    Recommendation-with-mahout:与Maven + hadoop和mahout一起推荐

    本项目名为“Recommendation-with-mahout”,它结合了Maven、Hadoop和Apache Mahout这三个强大的工具,旨在实现高效的推荐算法。以下是对这些技术及其整合应用的详细说明。 **Apache Mahout** Apache Mahout是一个...

    hadoop 2.4.1+mahout0.9环境搭建

    总的来说,"hadoop 2.4.1+mahout0.9环境搭建"是一个涉及多方面技术的工程,需要对Hadoop、Mahout、Java开发、分布式系统和机器学习有深入理解。通过这个过程,开发者可以更好地掌握大数据处理和分析的实践技能。

    mahout-0.9-cdh5.5.0.tar.gz

    mahout-0.9-cdh5.5.0.tar.gz

    mahout-distribution-0.9含jar包

    6. **集成Hadoop**:Mahout设计为与Hadoop框架紧密集成,利用其分布式计算能力处理大规模数据集。这使得在集群上运行Mahout算法成为可能。 7. **可扩展性和并行化**:Mahout的算法设计考虑了并行化,可以充分利用...

    hadoop2.7.3+mahout0.9问题集

    在“hadoop2.7.3+mahout0.9问题集”中,我们可能遇到的主要问题包括但不限于以下几点: 1. **版本兼容性**:Hadoop和Mahout的版本兼容性是首要考虑的问题。虽然Mahout 0.9声称支持Hadoop 2.x系列,但在实际应用中,...

    apache-mahout-distribution-0.11.0-src.zip

    Apache Mahout是基于Hadoop的数据挖掘库,提供了一套用于实现推荐系统、分类和聚类算法的工具。这个项目的目标是创建易于使用的、高效的机器学习算法,使大数据分析变得更加简单。 2. **源码分析**: 在源码中,...

    mahout0.9 源码

    1. **分布式计算框架支持**:Mahout 0.9利用Hadoop的分布式计算能力,可以处理大规模数据集。这使得它能够高效地运行在云计算平台上,如Amazon EMR或自建的Hadoop集群。 2. **机器学习算法库**:Mahout包含了多种...

    Mahout-0.9-jar包

    在“Mahout-0.9-jar包”的压缩文件中,通常会包含如`mahout-core-0.9.jar`、`mahout-math-0.9.jar`等核心库,以及可能的依赖库,如`slf4j-api-*.jar`(日志框架)和`hadoop-*.jar`(Hadoop相关的依赖)。开发者需要...

Global site tag (gtag.js) - Google Analytics