`

如何转换成weka可识别的ARFF格式

    博客分类:
  • weka
阅读更多
摘自:http://blog.csdn.net/chl033/article/details/4837232

若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:
-----------------------------------------------------------
...
|
+- example
     |
     +- class1
     |  |
     |  + file1.txt
     |  |
     |  + file2.txt
     |  |
     |  ...
     |
     +- class2
     |  |
     |  + another_file1.txt
     |  |
     |  + another_file2.txt
     |  |
     |  ...
-----------------------------------------------------------
按照上图所示的目录布局好文本数据后,将example文件夹放置在weka根目录下,我们利用WEKA的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir example > example.arff
此时,可以发现在weka根目录下生成了一个example.arff文件,这说明文本数据已经成功转换成了WEKA需要的ARFF文件了。
example.arff文件内容下图所示,从图中可以发现example文件夹下的子文件夹名变成了每个文档的类标记。
-----------------------------------------------------------
@relation D__workspace_weka_example
@attribute text string
@attribute class {class1,class2,class3}
@data
‘文本内容’,class1
‘文本内容’,class3
‘文本内容’,class2
‘文本内容’,class1
‘文本内容’,class3
...
-----------------------------------------------------------
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改WEKA的源码才能实现对中文文本数据的处理。
分享到:
评论

相关推荐

    mat格式数据转换weka的arff格式

    matlab默认使用的数据格式是mat,而weka在数据挖掘中经常用到,但其默认格式为arff。利用本代码可以将mat格式数据自动转为arff格式,自动添加数据头信息。能够很好处理高维度数据

    csvToarff.zip

    matlab代码将csv格式的数据转换为weka中的arff格式,亲测可用!

    diabetes.arff用于weka的糖尿病预测数据集

    数据集是来源于 University of California, Irvine(UCI)机器学习数据库中的 Pima Indian Diabetes 数据集,总共包含 768 条数据项。...数据集已转arff格式(其实与csv格式差不多可自行修改),可用于weka。

    基于weka的.arff数据的低秩矩阵分解缺失值补全.java

    使用weka,jar函数读取数据arff,代码引用类型如下: import weka.core.Attribute; import weka.core.Instance; import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; import ...

    weka生成arff文件的简单代码

    使用weka.jar包,只有两个java文件,有一个是House类(定义一个样本及其属性),还有一个就是基于House类生成每一个样本的arff文件代码

    WEKA入门用的银行数据集bank-data.arff

    用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff ...

    weka Arff 数据集

    打包在一起了,共202个arff文件 。。。

    WEKA arff 实验数据集比较全

    WEKA arff 实验数据集比较全数据挖掘实验的数据

    arff格式数据集C

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    arff格式数据集T-Z

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    arff数据集全集(weka机器学习必备)

    2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff ...

    WEKA快速入门(含银行数据集bank-data及天气数据集weather)

    Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然weka官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个...

    处理成arff格式的Localization Data for Posture Reconstruction数据集

    处理成arff格式的Localization Data for Posture Reconstruction数据集,可以被weka直接使用,与weka使用C4.5算法进行实验的数据挖掘实验报告对应。

    arff格式数据集N-S

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    weka数据格式转换程序

    该matlab程序用于数据格式转换,能将mat数据转换为weka所需的数据类型.

    arff格式数据集I-M

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    WekaTest:一些错误

    WekaTest some error 使用说明 Segmenter.java 将训练集所在文件夹中的...Stringtext.java 将txt文档转换后的arff文件转换成分类器可用的arff格式。 TreeTest.java 调用weka的分类器 每个.java都是单独执行没有整合。

    arff格式数据集D-H

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    pyWeka:使用 Python 脚本运行所有 Weka 分类器(CSV 到 ARFF 转换器、数据集缩放、多个类、格式化结果等)

    皮维卡使用 Python 脚本运行所有 Weka 分类器(CSV 到 ARFF 转换器、数据集缩放、多个类、格式化结果等) 使用 _Run_pyWeka.py 和 Params.csv 为 _Attributes.csv 中定义的多个数据集运行 _Classifiers4NormData.txt...

Global site tag (gtag.js) - Google Analytics