摘自:http://blog.csdn.net/chl033/article/details/4837232
若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:
-----------------------------------------------------------
...
|
+- example
|
+- class1
| |
| + file1.txt
| |
| + file2.txt
| |
| ...
|
+- class2
| |
| + another_file1.txt
| |
| + another_file2.txt
| |
| ...
-----------------------------------------------------------
按照上图所示的目录布局好文本数据后,将example文件夹放置在weka根目录下,我们利用WEKA的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir example > example.arff
此时,可以发现在weka根目录下生成了一个example.arff文件,这说明文本数据已经成功转换成了WEKA需要的ARFF文件了。
example.arff文件内容下图所示,从图中可以发现example文件夹下的子文件夹名变成了每个文档的类标记。
-----------------------------------------------------------
@relation D__workspace_weka_example
@attribute text string
@attribute class {class1,class2,class3}
@data
‘文本内容’,class1
‘文本内容’,class3
‘文本内容’,class2
‘文本内容’,class1
‘文本内容’,class3
...
-----------------------------------------------------------
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改WEKA的源码才能实现对中文文本数据的处理。
分享到:
相关推荐
matlab默认使用的数据格式是mat,而weka在数据挖掘中经常用到,但其默认格式为arff。利用本代码可以将mat格式数据自动转为arff格式,自动添加数据头信息。能够很好处理高维度数据
matlab代码将csv格式的数据转换为weka中的arff格式,亲测可用!
数据集是来源于 University of California, Irvine(UCI)机器学习数据库中的 Pima Indian Diabetes 数据集,总共包含 768 条数据项。...数据集已转arff格式(其实与csv格式差不多可自行修改),可用于weka。
使用weka,jar函数读取数据arff,代码引用类型如下: import weka.core.Attribute; import weka.core.Instance; import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; import ...
使用weka.jar包,只有两个java文件,有一个是House类(定义一个样本及其属性),还有一个就是基于House类生成每一个样本的arff文件代码
用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff ...
打包在一起了,共202个arff文件 。。。
WEKA arff 实验数据集比较全数据挖掘实验的数据
自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。
自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。
2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff ...
Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然weka官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个...
处理成arff格式的Localization Data for Posture Reconstruction数据集,可以被weka直接使用,与weka使用C4.5算法进行实验的数据挖掘实验报告对应。
自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。
该matlab程序用于数据格式转换,能将mat数据转换为weka所需的数据类型.
自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。
WekaTest some error 使用说明 Segmenter.java 将训练集所在文件夹中的...Stringtext.java 将txt文档转换后的arff文件转换成分类器可用的arff格式。 TreeTest.java 调用weka的分类器 每个.java都是单独执行没有整合。
自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。
皮维卡使用 Python 脚本运行所有 Weka 分类器(CSV 到 ARFF 转换器、数据集缩放、多个类、格式化结果等) 使用 _Run_pyWeka.py 和 Params.csv 为 _Attributes.csv 中定义的多个数据集运行 _Classifiers4NormData.txt...