`

损失函数总结

阅读更多
1.什么是损失函数
损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型认为性能就越好。


2.损失函数,代价函数和目标函数的区别
损失函数:计算的是一个样本的误差

代价函数:是整个训练集上所有样本误差的平均

目标函数:代价函数 + 正则化项

目标函数公式:



3.损失函数种类及适用场景
3.1 0-1损失函数
0-1损失是指,预测值和目标值不相等为1,否则为0:



感知机就是用的这种损失函数。但是由于相等这个条件太过严格,因此我们可以放宽条件,即满足 |Y−f(X)|<T|Y−f(X)|<T 时认为相等。





3.2 log损失
在逻辑回归的推导中,它假设样本服从伯努利分布(0-1)分布,然后求得满足该分布的似然函数,接着用对数求极值。逻辑斯特回归并没有求对数似然函数的最大值,而是把极大化当做一个思想,进而推导它的风险函数为最小化的负的似然函数。从损失函数的角度上,它就成为了log损失函数。
log损失函数的标准形式:



损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。

逻辑回归的P(Y=y|x)表达式如下(为了将类别标签y统一为1和0,下面将表达式分开表示):



将它带入到上式,通过推导可以得到logistic的损失函数表达式,如下:



逻辑回归最后得到的目标式子如下:



3.3 平方损失函数(最小二乘法, Ordinary Least Squares )
在线性回归中,它假设样本和噪声都服从高斯分布(为什么假设成高斯分布呢?其实这里隐藏了一个小知识点,就是中心极限定理。最小二乘的基本原则是:最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。换言之,OLS是基于距离的,而这个距离就是我们用的最多的欧几里得距离。为什么它会选择使用欧式距离作为误差度量呢(即Mean squared error, MSE),主要有以下几个原因:

简单,计算方便;
欧氏距离是一种很好的相似性度量标准;
在不同的表示域变换后特征性质不变。



当样本个数为n时,此时的代价函数变为:



Y-f(X)表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和(residual sum of squares,RSS)。

而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:




3.4 指数损失函数(Adaboost)
学过Adaboost算法的人都知道,它是前向分步加法算法的特例,是一个加和模型,损失函数就是指数函数。指数损失函数(exp-loss)的标准形式如下





可以看出,Adaboost的目标式子就是指数损失,在给定n个样本的情况下,Adaboost的损失函数为:





3.5 Hinge损失函数
在机器学习算法中,hinge损失函数和SVM是息息相关的。在线性支持向量机中,最优化问题可以等价于下列



Hinge 损失函数的标准形式





3.6 绝对值损失函数





4.总结

不同的算法使用的损失函数不一样,要根据相应模型来选择损失函数。




参考资料:
http://www.csuldw.com/2016/03/26/2016-03-26-loss-function/
https://blog.csdn.net/weixin_37933986/article/details/68488339
  • 大小: 5.3 KB
  • 大小: 3.1 KB
  • 大小: 3.9 KB
  • 大小: 2.7 KB
  • 大小: 9.9 KB
  • 大小: 7.7 KB
  • 大小: 5.4 KB
  • 大小: 2.2 KB
  • 大小: 2.2 KB
  • 大小: 3.2 KB
  • 大小: 2.8 KB
  • 大小: 2.6 KB
  • 大小: 3.8 KB
  • 大小: 2.6 KB
  • 大小: 2.2 KB
  • 大小: 6.5 KB
分享到:
评论

相关推荐

    损失函数学习笔记

    在浏览了网上大量关于损失函数的文档后,总结和归纳的损失函数学习笔记,尤其是softmax loss,对目前比较新的A-softmax、center loss、coco-loss、triple-loss等都有较为全面的理论推导和解释,对于入门级的同学具有...

    Pytorch中torch.nn的损失函数

    最近使用Pytorch做多标签分类任务,遇到了一些损失函数的问题,因为经常会忘记(好记性不如烂笔头囧rz),都是现学现用,所以自己写了一些代码探究一下,并在此记录,如果以后还遇到其他损失函数,继续在此补充。...

    交叉熵损失函数原理详解

    对于其内部的原理总是模模糊糊,而且一般使用交叉熵作为损失函数时,在模型的输出层总会接一个softmax函数,至于为什么要怎么做也是不懂,所以专门花了一些时间打算从原理入手,搞懂它,故在此写一篇博客进行总结,...

    基于python实现的BP神经网络手写数字识别模型实验源码+详细注释+数据集+项目说明+实验结果及总结.7z

    该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。反向传播要求有对每个输入值想得到的已知输出,来计算损失函数梯度。因此,它通常被认为是一种监督式学习...

    tensorflow中常用交叉熵损失函数(cross_entropy)的比较总结与代码示例

    本文将对以下几种tensorflow中常用的交叉熵损失函数进行比较: tf.losses.sigmoid_cross_entropy tf.nn.sigmoid_cross_entropy_with_logits tf.losses.softmax_cross_entropy tf.nn.softmax_cross_entropy_with_...

    面试问题总结-关于YOLO系列(一)这是一份总结YOLO系列目标检测算法的面试问题.md

    根据给出的文档内容,这是一份总结YOLO系列目标检测算法的面试问题,重点介绍了YOLO v1...总的来说,这份材料比较系统地介绍了YOLO v1算法的核心思想、网络结构和损失函数等方面的内容,可以作为面试时回答相关问题的参考。

    深度学习常用激活函数.docx

    本资源通过对深度学习中常用的一些激活函数和损失函数通过查阅资料进行集中总结,供其他用户参考学习,为其他用户节约相应的收集时间。

    算法工程师-机器学习面试题总结

    1-2 损失函数是什么,如何定义合理的损失函数? 1-3 回归模型和分类模型常用损失函数有哪些?各有什么优缺点 1-4 什么是结构误差和经验误差?训练模型的时候如何判断已经达到最优? 1-5 模型的“泛化”能力是...

    python回归分析总结–线性模型及岭回归

    2、损失函数 3、优化算法 使得损失函数值达到最小的方法。 方法: 正规方程 梯度下降 4、python的API 4.1.1 statsmodels.formula.api.OLS():普通最小二乘模型拟合- – 常用 4.1.2 scipy.stats.linregress(): 线性...

    TCPIP协议详解卷2:实现

    Stevens先生不幸病逝于1999年9月1日,他的离去是计算机界的巨大损失。 译、校者简介: 谢希仁,中国人民解放军理工大学(南京)计算机系教授,全军网络技术研究中心主任,博士研究生导师,1952年毕业于清华大学电机系...

    Actor-Critic原理+PPO算法推导

    基于李宏毅课程总结

    必做题—命题公式真值表输出选做题—函数曲线的离散化 提高题(选做)—用离散的点显示自己的姓名(评分:优秀)

    必做题—命题公式真值表输出 已知命题公式A=﹁( p q ) ( (p r) s),用JAVA或C/C++语言编写程序构造...对于每个△t,注意观察函数信息损失的情况,解释核心程序段,总结分析,编制程序并编写实践报告(评分:良好)。 、

    机器学习算法总结1:统计学习方法概论

    总结《统计学习方法》学习心得 统计学习(statistical learning)是关于...损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。 损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。 常用损失函

    keras优化器详解

    一份详细的keras优化器详细总结。基于梯度的优化方法 1 0. 梯度下降 2 1. 批量梯度下降Batch gradient descent(BGD) 3 2. 随机梯度下降 Stochastic gradient descent(SGD) 4 ...损失函数 12 激活函数: 14 优化函数 14

    PyTorch接口总结1

    2.自动求导 3.神经网络结构 4.损失函数与优化方法

    人脸年龄估计

    总结和分析了对于人脸图像的年龄估计方法,在研究相关领域内容是值得首先了解的知识。

Global site tag (gtag.js) - Google Analytics