`
chakey
  • 浏览: 359603 次
  • 性别: Icon_minigender_1
  • 来自: 水星
社区版块
存档分类
最新评论

mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile

阅读更多

mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。

SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看
eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&amp
mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。
(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.)
使用方法如下:
$MAHOUT_HOME/bin/mahout seqdirectory \
--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \
<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \
<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \
<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>

举个例子:
bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8

 

我在Hadoop技术论坛,关于本章的链接是:

http://bbs.hadoopor.com/thread-983-1-1.html

 

 

同时提供一个mahout使用的demo的地址:

http://lucene.grantingersoll.com/2010/02/16/trijug-intro-to-mahout-slides-and-demo-examples/

这里面有几个不错的例子。

0
2
分享到:
评论

相关推荐

    基于Mahout的电影推荐系统的数据文件

    基于Mahout的电影推荐系统的数据文件,数据文件包含(users.dat、moives.dat、ratings.dat、movie_preferences.txt)。

    Mahout源码

    Mahout是一个Java的机器学习库。Mahout的完整源代码,基于maven,可以轻易导入工程中

    基于Mahout的电影推荐系统

    这是这篇博文的工程代码,是MyEclipse的工程文件。...由于原工程开发的时候是在MyEclipse中引用mahout的jar包,所以这个压缩文件并没有相关的jar文件,故运行此项目之前需要做的事请,是需要导入mahout的开发包。

    mahout api 学习资料

    mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout

    基于mahout的数据挖掘技术课程 共35页.pdf

    Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。 机器学习 • 机器学习是人工智能的一个分支,...

    maven_mahout_template-mahout-0.8

    maven_mahout_template-mahout-0.8

    mahout canopy 仿造代码

    仿造mahout 的canopy算法编写的canopy算法,只是把其中的输入数据文件的格式改为了text类型,且加入了log信息,方便用户测试算法;

    mahout 简介,中文

    mahout 入门中文材料,是IBM文章汇总,值得一看

    mahout Algorithms源码分析

    mahoutAlgorithms源码分析 mahout代码解析

    mahout所需jar包

    Mahout支持K-Means等聚类算法,在此zip包中已经有打好jar包的资源,不需要用户再打jar包,可以直接使用。

    spring-mahout-demo

    spring-mahout-demo-----一个简单的spring-mahout结合的例子,是很好的学习开发思路的例子。

    MAHOUT实战(中文版)

    MAHOUT实战 MAHOUT IN ACTION

    Mahout tutorial

    Mahout 官方文档,简单介绍Mahout概念及其安装和简单使用

    mahout-integration-0.7

    mahout-integration-0.7mahout-integration-0.7mahout-integration-0.7mahout-integration-0.7

    mahout-0.11.1 相关的jar

    mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...

    Mahout0.8_API

    Mahout0.8_API 喜欢的人就请下载吧

    mahout源码

    mahout,朴素贝叶斯分类,中文分词,mahout,朴素贝叶斯分类,中文分词,

    Apache Mahout 简介

    Apache Mahout 简介

Global site tag (gtag.js) - Google Analytics