When run cvb, there is a error
org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritable
Solution:
the new LDA requires SequenceFile<IntWritable, VectorWritable> as input (the same disk format as DistributedRowMatrix), which you can get out of SequenceFile<Text, VectorWritable> by running the RowIdJob ("$MAHOUT_HOME/bin/mahout rowid -h" for more details) before running CVB.
Interpret the result
doc-topic
mahout vectordump -i hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/lda/doc-topic -o data/lda/doc-topic -sort true -vs 1 -p true
Note: -vs 1 just dump the first topic a document belongs to, such as
#doc-index topic-id:properblity 0 {1:0.9999999918613426} 1 {2:0.999999958633294} 2 {0:0.9999999872590848} 3 {0:0.9999999914501596}
Warning: don't provide -d option to dump doc-topic, otherwise you' ll get meanless output.
topic-term
mahout vectordump -i hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/lda/topic-term -o data/lda/topic-term -d hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/docsvectors3/dictionary.file-0 -dt sequencefile -sort true -vs 5 -p true
References
http://mail-archives.apache.org/mod_mbox/mahout-user/201205.mbox/%3CCAG3i8Se1QobSPpw8ewgNkjVw_Zd_8crb6Z18_7G5Yqew1XRTAw@mail.gmail.com%3E
http://stackoverflow.com/questions/21318459/how-to-run-mahout-cvb-on-reuters-news-on-cloudera-vm-cdh4-5-as-lda-is-not-longer
相关推荐
Apache Mahout是一个开源项目,专注于开发可扩展的机器学习库,它主要由Java语言编写,并且依赖于Maven构建系统。在"apache-mahout-distribution-0.11.0-src.zip"这个压缩包中,您将找到Mahout 0.11.0版本的源代码,...
Apache Mahout:trade_mark:项目的目标是构建一个环境,以快速创建可扩展的高性能机器学习应用程序。 有关Mahout的其他信息,请访问设置环境无论您是使用Mahoutshell,运行命令行作业还是将其用作构建应用程序的库,...
Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
**马哈多(Mahout)库的概述** 马哈多(Mahout)是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它基于Hadoop,这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员...
根据给定的文件信息,我们可以提炼出以下几个与Apache Mahout及其Taste Webapp相关的知识点: 1. Apache Mahout简介 Apache Mahout是一个开源项目,隶属于Apache软件基金会(ASF),专门提供可扩展的机器学习算法...
### Apache Mahout Cookbook知识点概述 #### 一、Apache Mahout简介 Apache Mahout是一个高度可扩展的机器学习库,主要用于构建智能推荐系统、聚类分析以及其他数据挖掘任务。该库利用了Apache Hadoop的强大分布式...
Apache Mahout是一个基于Java的开源项目,专注于开发可扩展的机器学习库,尤其在推荐系统、分类和聚类算法方面表现出色。在大数据领域,Mahout为Hadoop提供了一个理想的平台,用于实现大规模的数据挖掘和分析任务。...
在"mahout:mahout-推荐-测试"这个主题中,我们聚焦于 Mahout 的推荐系统部分以及相关的测试过程。Mahout 的推荐引擎是其核心功能之一,它能够帮助开发者构建个性化的推荐系统,广泛应用于电子商务、社交媒体、流媒体...
《Hadoop-Mahout:基于Hadoop的大数据处理与机器学习实践》 Hadoop-Mahout 是一个基于Apache Hadoop的开源项目,专注于提供大规模的数据挖掘和机器学习算法。这个项目的目标是创建易于使用的、可扩展的机器学习库,...
本项目名为“Recommendation-with-mahout”,它结合了Maven、Hadoop和Apache Mahout这三个强大的工具,旨在实现高效的推荐算法。以下是对这些技术及其整合应用的详细说明。 **Apache Mahout** Apache Mahout是一个...
Mahout:整体框架,实现了协同过滤 Deeplearning4j,构建VSM Jieba:分词,关键词提取 HanLP:分词,关键词提取 Spring Boot:提供API、ORM 关键实现 基于用户的协同过滤 直接调用Mahout相关接口即可 选择不同...
**Apache Mahout与Play-Mahout游乐场** Apache Mahout是一个开源机器学习库,它为开发者和数据科学家提供了实现各种机器学习算法的平台。Mahout最初是基于Java开发的,但随着时间的发展,它也整合了Scala和Spark等...
JRuby Mahout Jruby Mahout是一颗宝石,它在JRuby世界中释放了Apache Mahout的力量。 Mahout是用Java编写的高级机器学习库。 它大规模地处理了建议,聚类和分类机器学习问题。 到目前为止,在Ruby项目中很难使用它...
推荐系统使用ApacheMahout 使用Mahout库进行协同过滤。 使用的数据集: 100k电影镜头数据集。 网址: : 图书交叉数据集。 网址: : 数据预处理: 电影镜头数据集:该数据集的值用'\ t'分隔,并且还报告了时间戳。 ...
mumu-crunch mahout机器学习算法 mumu-mahout是一个学习项目,主要通过这个项目来学习mahout的功能和使用方式。mahout是一款开源的机器学习算法,主要包括协同过滤推荐、聚类、分类等三大块内容。 推荐可以基于用户...
打开命令行,进入解压后的Mahout源码目录,执行以下Maven命令来构建Mahout: ``` mvn clean install -DskipTests ``` 这个过程可能会比较耗时,因为Maven会自动下载所有依赖。等待编译完成后,Mahout的可执行jar文件...
为了演示如何使用Mahout在EMR上进行分析工作,我们将构建电影推荐器。 我们将从GroupLens团队编译的MovieLens数据集中用户对电影标题的评级开始,并使用“基于建议”的示例为每个用户查找最受推荐的电影。 在CLI中,...
《Apache Mahout:开启机器学习之旅》 Apache Mahout,作为一个开源项目,是大数据时代下机器学习领域的杰出代表。这个项目的核心目标是提供一系列可扩展的机器学习算法,以简化开发人员构建智能应用的过程。在...