`

WEKA将英文文本数据集转换成ARFF格式

    博客分类:
  • weka
阅读更多
摘自:http://blog.163.com/jiayouweijiewj@126/blog/static/1712321772011113102710492/


利用Weka转化英文文本数据需要用到两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
首先,转换之前,需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:一个文件夹自己命名(例如:20news),其中一类一个文件夹,文件夹名字是类标签,每类文件夹里一篇文档是一个文件。

其次,将文件夹(20news)放置在weka根目录下,利用Weka的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir 20news > 20news.arff

之后会在Weka根目录下生成了一个20news.arff文件,这说明文本数据已经成功地转换成了Weka需要的ARFF文件。
从20news.arff文件内容可以发现20news文件夹下的子文件夹名变成了每个文档的类标记。

该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改Weka的源码才能实现对中文文本数据的处理。
分享到:
评论

相关推荐

    mat格式数据转换weka的arff格式

    matlab默认使用的数据格式是mat,而weka在数据挖掘中经常用到,但其默认格式为arff。利用本代码可以将mat格式数据自动转为arff格式,自动添加数据头信息。能够很好处理高维度数据

    diabetes.arff用于weka的糖尿病预测数据集

    数据集是来源于 University of California, Irvine(UCI)机器学习数据库中的 Pima Indian Diabetes 数据集,总共包含 768 条数据项。...数据集已转arff格式(其实与csv格式差不多可自行修改),可用于weka。

    WEKA快速入门(含银行数据集bank-data及天气数据集weather)

    Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然weka官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个...

    WEKA入门用的银行数据集bank-data.arff

    用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff ...

    WEKA arff 实验数据集比较全

    WEKA arff 实验数据集比较全数据挖掘实验的数据

    weka软件最全数据集

    weka软件最全数据集,共189个,用于weka软件的数据集训练和测试,包含天气 车辆 肝脏肿瘤等等数据集,格式为arff

    arff格式数据集C

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    arff数据集全集(weka机器学习必备)

    2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff ...

    arff数据集全集(new)

    稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据: @data 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" 用稀疏格式表达的话就是 @data {1 X, 3 Y, 4 "class A"}...

    weka安装自带的数据集

    weka安装自带的数据集,安装weka后在weka根目录下的data文件夹下可以找到。

    weka经典七个数据集

    weka 数据挖掘 bank_data.arff wine.arff等

    weka Arff 数据集

    打包在一起了,共202个arff文件 。。。

    weka基础数据集

    weka自带的数据集,数据挖掘基础需要用到的,可以在weka根目录的data中找到

    arff格式数据集T-Z

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    处理成arff格式的Localization Data for Posture Reconstruction数据集

    处理成arff格式的Localization Data for Posture Reconstruction数据集,可以被weka直接使用,与weka使用C4.5算法进行实验的数据挖掘实验报告对应。

    arff格式数据集D-H

    自己收集的arff数据集,大概200个文件左右,以文件开头字母为名,分为7个压缩包,希望能为大家帮点小忙,板砖轻砸。

    数据集bank.arff

    在weka下用于k-means算法分析的数据集

    WEKA学习数据集之bank数据集

    该数据集合是进行WEKA学习的一个练习用数据集

    weka bank 数据集

    维卡 数据挖掘 bank 数据集 训练集 arff格式

Global site tag (gtag.js) - Google Analytics