mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。
SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看
eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&
mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。
(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.)
使用方法如下:
$MAHOUT_HOME/bin/mahout seqdirectory \
--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \
<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \
<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \
<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>
举个例子:
bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8
我在Hadoop技术论坛,关于本章的链接是:
http://bbs.hadoopor.com/thread-983-1-1.html
同时提供一个mahout使用的demo的地址:
http://lucene.grantingersoll.com/2010/02/16/trijug-intro-to-mahout-slides-and-demo-examples/
这里面有几个不错的例子。
分享到:
相关推荐
基于Mahout的电影推荐系统的数据文件,数据文件包含(users.dat、moives.dat、ratings.dat、movie_preferences.txt)。
Mahout是一个Java的机器学习库。Mahout的完整源代码,基于maven,可以轻易导入工程中
这是这篇博文的工程代码,是MyEclipse的工程文件。...由于原工程开发的时候是在MyEclipse中引用mahout的jar包,所以这个压缩文件并没有相关的jar文件,故运行此项目之前需要做的事请,是需要导入mahout的开发包。
mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。 机器学习 • 机器学习是人工智能的一个分支,...
maven_mahout_template-mahout-0.8
仿造mahout 的canopy算法编写的canopy算法,只是把其中的输入数据文件的格式改为了text类型,且加入了log信息,方便用户测试算法;
mahout 入门中文材料,是IBM文章汇总,值得一看
mahoutAlgorithms源码分析 mahout代码解析
Mahout支持K-Means等聚类算法,在此zip包中已经有打好jar包的资源,不需要用户再打jar包,可以直接使用。
spring-mahout-demo-----一个简单的spring-mahout结合的例子,是很好的学习开发思路的例子。
MAHOUT实战 MAHOUT IN ACTION
Mahout 官方文档,简单介绍Mahout概念及其安装和简单使用
mahout-integration-0.7mahout-integration-0.7mahout-integration-0.7mahout-integration-0.7
mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...
Mahout0.8_API 喜欢的人就请下载吧
mahout,朴素贝叶斯分类,中文分词,mahout,朴素贝叶斯分类,中文分词,
Apache Mahout 简介