`
韩悠悠
  • 浏览: 827719 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

机器学习中误差原因

 
阅读更多

 

误差原因
在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。我们会对两者进行更详细的探讨。
 
 
 
偏差造成的误差 - 精度和欠拟合
如前所述,如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地错误表示数据,从而导致预测精度低。这种现象叫做欠拟合(underfitting)。
简单来说,如果模型不适当,就会出现偏差。举个例子:如果对象是按颜色和形状分类的,但模型只能按颜色来区分对象和将对象分类(模型过度简化),因而一直会错误地分类对象。
或者,我们可能有本质上是多项式的连续数据,但模型只能表示线性关系。在此情况下,我们向模型提供多少数据并不重要,因为模型根本无法表示其中的基本关系,我们需要更复杂的模型。
 
 
方差造成的误差 - 精度和过拟合
在训练模型时,通常使用来自较大母体(训练集)的有限数量样本。如果利用随机选择的数据子集反复训练模型,可以预料它的预测结果会因提供给它的具体样本而异。在这里,方差(variance)用来测量预测结果对于任何给定的测试样本会出现多大的变化。
出现方差是正常的,但方差过高表明模型无法将其预测结果泛化到从中抽取训练样本的较大母体。对训练集高度敏感也称为过拟合(overfitting),而且通常出现在模型过于复杂或我们没有足够的数据支持它时。
通常,可以利用更多数据进行训练,以降低模型预测结果的方差并提高精度。
 
 
改进模型的有效性
我们可以看到,在给定一组固定数据时,模型不能过于简单或复杂。如果过于简单,模型无法了解数据并会错误地表示数据。但是,如果建立非常复杂的模型,则需要更多数据才能了解基本关系,否则十分常见的是,模型会推断出在数据中实际上并不存在的关系。
关键在于,通过找出正确的模型复杂度来找到最大限度降低偏差和方差的最有效点。当然,数据越多,模型随着时间推移会变得越好。
要详细了解偏差和方差,建议阅读 Scott Fortmann-Roe 撰写的这篇文章
除了选定用来训练模型的数据子集外,您使用的哪些来自给定数据集的特征也会显著影响模型的偏差和方差?
 
分享到:
评论

相关推荐

    准确测量机器学习模型的误差

    在机器学习模型的效果评估中,预测误差的分析是重中之重。对于现有的各种误差测量技术,如果 使用不当,会得出极具误导性的结论。这些结论会误导模型设计者设计出过拟合的模型,过拟合是 指训练出的模型对于训练集...

    机器学习机器学习在R中的应用

    机器学习机器学习在R中的应用 线性回归与logistic (1) 由很多决策树分类组合而成(因而称为“森林”) (2) 单个的决策树分类器用随机方法构成。首先,学习集是从原训练集中通过有放回抽样 得到的自助样本。其次...

    机器学习优化方法及超参数设置综述v1.pdf

    机器学习及其分支深度学习主要任务是模拟或者实现人类学习行为,这些学习方法近年来在目标分类、语音识别等各项任务中取得巨大突破。机器学的各种优化器极大了改善了学习模型的训练速度和泛化误差。优化方法和超参数...

    机器学习总结(包括分类,流程,常见误差,常见的机器学习算法)

    一、机器学习的分类: 监督学习(supervised learning):线性回归,逻辑回归,KNN,神经网络,决策树,集成学习,SVM,贝叶斯,协同过滤,LDA ...二、机器学习中主要解决问题包括:分类,回归,聚类,降维 ……

    使用机器学习算法在人寿保险公司中进行代理建模-研究论文

    为了提高代理模型的质量,我们建议应用选定的机器学习算法并概述其背后的理论,并通过比较不同估计器的模型误差来呈现数值结果。 该研究是根据一家大型再保险公司生成的真实数据进行的。 该文本可以作为愿意在其...

    人工智能之机器学习常见算法.pdf

    这⾥IT经理⽹为您总结⼀下 常见的机器学习算法,以供您在⼯作和学习中参考。 机器学习的算法很多。很多时候困惑⼈们都是,很多算法是⼀类算法,⽽有些算法⼜是从其他算法中延伸出来的。这⾥,我们从两个⽅⾯来 给⼤...

    机器学习.zip

    不过人类可以去触摸去体会,但是机器不一样,必须提供每个样本的特征及其类别,使用这些数据,通过算法让机器学习,进行判断,逐步减小误差概率。 - 不妨这样理解:监督学习是从给定的训练数据集中“学习”出一个...

    梯度下降法在机器学习中的应用

    针对机器学习中损失函数优化问题,引入梯度下降法及其变体算法,用迭代的方 式求解其近似最优解,采用梯度下降法最小化损失函数,在MATLAB等程序实现的基 础上进行研究。对线性回归模型、逻辑斯谛回归模型学习的梯度...

    【机器学习】线性回归实验数据

    其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自...

    机器学习估算水中替代物的养分浓度_translate(1).pdf

    在这项工作中,通常使用就地测量的变量作为替代指标,以利用机器学习模型(特别是随机森林)来估算农村流域和城市流域中养分的浓度。将结果与使用相同数量的代理进行线性建模的结果进行比较,可将均方根误差(RMSE)...

    电子科技大学机器学习大作业.7z

    采用信息增益准则,基于表4.2中编号为1、2、3、6、7、9、10、14、15、16、17的11个样本的色泽、根蒂、敲声、文理属性构建决策树。(本次作业可以用笔算,鼓励编程实现,但都需要列出主要步骤,其中log2(3)=1.585,log...

    基于机器学习中LSTM和RNN用python来实现海浪波高预报的源码(预报准确性较高)

    源码中采取的NC文件(站点的风速和波高信息)(已上传)分别用LSTM和RNN模型进行训练并实验,输出散点拟合图以及预报折线图,实验预报效果较好,预报误差仅0.2m左右。源码内有注释,不明白的也可与我交流讨论,共同...

    机器学习课程中的实验(使用mnist与usps数据集,采用BP神经网络与SVM支持向量机的方式实现手写数字的识别)

    机器学习课程中的实验(使用mnist与usps数据集,采用BP神经网络与SVM支持向量机的方式实现手写数字的识别) MNIST和USPS手写数字识别 采用机器学习算法完成手写数字识别任务 数据集:分别采用usps和mnist两个数据...

    拟parton分布函数矩阵元的机器学习预测

    在这项工作中,我们探讨了机器学习算法是否可以预测相关器,以减少这些LQCD计算的计算成本。 我们考虑了应用于LaMET数据的两种算法(梯度增强决策树和线性模型),确定kaon和ηs非极化parton分布函数(PDF),介子...

    机器学习: Metric Learning (度量学习) 学习笔记

    目前,机器学习中的K近邻(KNN)分类算法和支持向量机(SVM)算法被认为是处理文本分类的最好方法。但KNN分类算法有以下的缺陷: KNN是基于近邻度量的一种模式分类算法,它高度依赖于数据间的相似度度量,简单的欧式距离...

    随机森林_机器学习_决策树_随机取样_

    从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些...

    算法工程师-机器学习面试题总结

    1-1 简述解决一个机器学习问题时,你的流程是怎样的? 1-2 损失函数是什么,如何定义合理的损失函数? 1-3 回归模型和分类模型常用损失函数有哪些?各有什么优缺点 1-4 什么是结构误差和经验误差?训练模型的...

    机器学习线性回归算法(Python代码版)

    线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

    机器学习模型在功耗分析攻击中的研究

    为避免十折交叉验证过程中出现测试集误差不足以近似泛化误差的问题,采用 Fried man检验及 Nemeny后续检验相结合的方法对4种机器学习算法进行评估,结果表明支持向量机是适用于功耗分析攻击的最优机器学习算法。

    机器学习中的核覆盖算法

    基于统计学习理论的支持向量机(SVM)方法在样本空间或特征空间构造最优分类超平面解决了分类器的构造问题,但其本质是二分类的,且核函数中的参数难以确定,计算复杂性高.构造性学习算法根据训练样本构造性地设计分类...

Global site tag (gtag.js) - Google Analytics