weka在做数据预处理的时候针对attribute提供了多种方式,包括值的各种转换,常用的如下:
1.缺失值处理
weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。
2.规范化处理
类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。
3.标准化处理
类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。
4.离散化处理
类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。
代码如下:
ReplaceMissingValues filter = new ReplaceMissingValues(); filter.setInputFormat(instances); Instances newTrain = Filter.useFilter(instances, filter);
相关推荐
数据挖掘-WEKA实验报告一.pdf数据挖掘-WEKA实验报告一.pdf数据挖掘-WEKA实验报告一.pdf数据挖掘-WEKA实验报告一.pdf数据挖掘-WEKA实验报告一.pdf数据挖掘-WEKA实验报告一.pdf
实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of ...
weka是一款由Waikato大学研究的基于Java 的用于数据挖掘和知识发现的开源项目, 其中集成了大量能承担数据挖掘任务的机器学习算法, 包括对数据进行预处理、关联规则挖掘、分类、聚类等, 并提供了丰富的可视化功能。...
Weka平台设计的研究和其数据预处理功能的改进
该教材介绍了weka的数据格式,以及weka中数据预处理、分类、聚类、规则挖掘等一些列操作,以实例的方式讲的,简单易懂
3 数据预处理 本实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Iris 是鸢尾花的意思,鸢尾花是鸢尾属植物,是一种草本开花植物的统称。鸢尾花只有三枚花瓣,其余外围的那三瓣乃是...
3数据预处理 本实验采用Weka平台,数据使用Weka安装目录下data文件夹下的默认数据集iri.arff。 Iri是鸢尾花的意思,鸢尾花是鸢尾属植物,是一种草本开花植物的统称。鸢尾花只有三枚花瓣,其余外围的那三瓣乃是保护...
打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path ->选择Libraries ->点击Add External JARs
WEKA的全名是怀卡托智能分析环境(Waikato... WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
WEKA 的全名是怀卡托...在操作上可以可视化操作无需编程,支持拖拉拽式工作流程使用起来非常方便,但是无论是数据预处理还是算法选择和调参都需要工程师手动完成,因此使用者需要具备一定统计学基础和数据挖掘经验。
数据挖掘工具weka的使用方法——weka简介与数据预处理、分类与可视化部分
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。matlab机器学习/数据挖掘spider工具箱使用...
对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化等
(2)数据预处理:将每个连续型指标数据离散化为三个区间,级别从高到低分别为Excellent(用“E”表示)、Good(用“G”表示)、Fair(用“F”表示);将总平均分离散为“A”、“B”、“C”三个等次,作为每门课程的...
2数据的准备及预处理 2.1格式转换方法 原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或 csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始 数据的保存...
2数据的准备及预处理 2.1格式转换方法 原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或 csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始 数据的保存...
2数据的准备及预处理 2.1格式转换方法 原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或 csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始 数据的保存...
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以...