离散化和概念分层产生
通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法,减少属性值的数量特别有好处。通常,这种方法是递归的,大量的时间花在每一步的数据排序上。因此,待排序的不同值越少,这种方法就应当越快。许多离散化技术都可以使用,以便提供属性值的分层或多维划分——概念分层
对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集并用较高层的概念(对
于年龄属性,如young, middle-age 和senior)替换较低层的概念(如,年龄的数值值),概念分层可以用来归约数据。通过这种泛化,尽管细节丢失了,但泛化后的数据更有意义、更容易解释,并且所需的空间比原数据少。在归约的数据上进行挖掘,与在大的、未泛化的数据上挖掘相比,所需的I/O 操作更少,并且更有效
对于用户或领域专家,人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而,许多分层蕴涵在数据库模式中,并且可以在模式定义级定义。概念分层常常自动地产生,或根据数据分布的统计分析动态地加以提炼。
数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法:分
箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。
分箱
分箱方法。这些方法也是离散化形式。例如,通过将数据分布到箱中,并用箱中的平均值或中值替换箱中的每个值,可以将属性值离散化。就象用箱的平均值或箱的中值平滑一样。这些技术可以递归地作用于结果划分,产生概念分层。
直方图分析
直方图分析算法递归地用于每一部分,自动地产生多级概念分层,直到到达一个预先设定的概念层数,过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每部分的最小宽度,或每层每部分中值的最少数目。
聚类分析
聚类算法可以用来将数据划分成聚类或群。每一个聚类形成概念分层的一个结点,而所有的结点在同一概念层。每一个聚类可以进一步分成若干子聚类,形成较低的概念层。聚类也可以聚集在一起,以形成分层结构中较高的概念层
基于熵的离散化
一种基于信息的度量称作熵,可以用来递归地划分数值属性A 的值,产生分层的离散化。这种离散化形成属性的数值概念分层。给定一个数据元组的集合S,基于熵对A 离散化的方法如下:
A 的每个值可以认为是一个潜在的区间边界或阈值T。例如,A 的值v 可以将样本S 划分成分别满足条件A < v 和A ³v 的两个子集,这样就创建了一个二元离散化。
给定S,所选择的阈值是这样的值,它使其后划分得到的信息增益最大。
其中,S1 和S2 分别对应于S 中满足条件A < T 和A ³T 的样本。对于给定的集合,它的熵函数根据集合中样本的类分布来计算
通过自然划分分段
3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地,该规则根据最重要的数字上的值区域,递归地、逐层地将给定的数据区域划分为3、4 或5 个等长的区间。该规则如下:
如果一个区间在最重要的数字上包含3、6、7 或9 个不同的值,则将该区间划分成3 个区间(对于3、6 和9,划分成3 个等宽的区间;而对于7,按2-3-2 分组,划分成3 个区间);
如果它在最重要的数字上包含2、4 或8 个不同的值,则将区间划分成4 个等宽的区间;
如果它在最重要的数字上包含1、5 或10 个不同的值,则将区间划分成5 个等宽的区间。
该规则可以递归地用于每个区间,为给定的数值属性创建概念分层。由于在数据集中可能有特别大的正值和负值,最高层分段简单地按最小和最大值可能导致扭曲的结果。例如,在资产数据集中,少数人的资产可能比其他人高几个数量级。按照最高资产值分段可能导致高度倾斜的分层。这样,顶层分段可以根据代表给定数据大多数的数据区间(例如,第5 个百分位数到第95 个百分位数)进行。越出顶层分段的特别高和特别低的值将用类似的方法形成单独的区间。
相关推荐
对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念并用它们替换较低层的概念,概念分层可以用来归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。
数据挖掘中并行离散化数据准备优化.pdf
数据离散化 数据离散化就是分箱 一把你常用分箱方法是等频分箱或者等宽分箱 一般使用pd.cut或者pd.qcut函数 pandas.cut(x, bins, right=True, labels) x: 数据 bins: 离散化的数目,或者切分的区间 labels: 离散化后...
数据离散化,将一些物质的属性数据离散化,能表示这些物质的特性
论文研究-与特征选取和离散化集成的决策规则挖掘方法.pdf, 利用粗糙集理论可以从已知数据中挖掘决策规则 .对于连续取值的特征属性必须先对其离散化 .从给定的特征属性...
详细描述了连续数据离散化的方法,阐述的比较详细
在计算几何问题中,离散化方法是一种较为通用的算法,在解决一些与矩形等直线型有关的题目时,能大大降低算法的时空复杂度。但当问题与圆相关时,直接离散化法有较大困难。本文讨论了离散化法在这类问题中的方法,...
使用matlab代码编写了Chimerge算法的通用函数并加上具体解析 直接修改函数的数据即可实现数据的离散化 代码亲测具备通用性,如果有问题欢迎留言
python零基础学习篇数据处理-课程2.4 数据连续属性离散化.mp4
随着数据挖掘和知识发现等技术的迅速发展,出现了很多数据离散的算法,但是,已有的离散化方法大多是针对固定点上的连续属性值的情况,实际应用中大量存在着连续区间属性值的情况。针对这一问题,提出了一种连续区间...
论文研究-基于粗糙集的区间型数据离散化算法.pdf, 针对条件属性取值为区间型数据的离散化问题,提出了一种新的基于粗糙集理论的离散化算法.首先将粗糙集理论中上、下近似...
可实现对连续的数据集进行离散化,这是一个强大的算法,离散化的数据使得特征更加明显。
matlab连续属性数据的离散化程序设计-变压器故障诊断数据比值.xls 对excel数据的离散化
离散数学知识点干货总结,适合期末复习
1.1.1 数据清理 1.1.2 数据集成 1.1.3 数据变换 1.1.4 数据离散化和概念分层
数据离散化的方法 对于不能处理连续问题的算法 可先进行离散化 然后在进行相关工作
离散化的方法,在网上看到大神写的,感觉很神奇,可以去掉重复的数据
本文涉及分数阶微分器和积分器的离散化,这是分数阶控制器数字化实现的基础。 首先,将参数化的Al-Alaoui变换表示为具有一个可变参数的一般生成函数,可以对其进行调整以获得常用的生成函数(例如Euler运算符,...
准PR控制离散化m准谐振控制器tustin离散化m语言模型可直接生成C代码进行嵌入式控制 %误差带宽设置 %************************************************************ %** 控制系数初始化 %准谐振控制 %tustin离散...