SVM学习<一>

lovejuan1314

浏览: 336703 次
性别:
来自: 北京

最近访客更多访客>>

huaiao_chen

flzlovexfy

释冰翼

zhugaopeng

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习和模式识别

VC++算法数据结构 .net

摘录自：http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html

<一> SVM简介

支持向量机是Cortes和Vapnik于1995年首先提出来的，它再解决小样本,非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量急方法是简历再统计学习理论的VC维理论合结构风险最小原理的基础尚的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）合学习能力（即五错误地识别任意样本地能力）之间寻求最佳这种，以期获得最好的泛化能力。

统计机器学习之所以区别于传统机器学习，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等一系列问题。与统计机器学习的精密思维相比，传统的机器学习基本上属于摸着石头过河，传统的机器学习方法构造分类系统完全成了一种技巧，一个人做的结果可能很好，另一个人差不多的方法却很差，缺乏指导原则。

所谓VC维是对函数类的一种度量，可以简单的理解维问题的复杂成都，VC维越高，一个问题就越复杂。SVM解决问题的时候和样本的维数是无关的。

机器学习本质就是一种对问题模型的逼近，真实模型一定是不知道的，所以我们选择的假设与问题真实解之间究竟有多大差距，这个与问题真实解之间的误差就叫做风险。更严格的说，误差的累积叫做风险。我们选择一个假设或者更直观点，我们得到了一个分类器以后，真实误差无从得知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是适用分类器在样本数据上的分类的结果与真实结果之间的差值来表示。

这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易达到100%的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或泛化能力差）。此时的情况便是选择了一个足够复杂的分类函数（它的VC维很高），能够精确的记住每一个样本，但对样本之外的数据一律分类错误。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行（行话叫一致），但实际上能逼近么？答案是不能，因为样本数相对于现实世界要分类的文本数来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有误差，当然不能保证在更大比例的真实文本上也没有误差。

统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。很显然，第二部分是没有办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。

泛化误差界的公式为：

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

SVM正是这样一种努力最小化结构风险的算法。

SVM其他的特点就比较容易理解了。

小样本，并不是说样本的绝对数量少（实际上，对任何算法来说，更多的样本几乎总是能带来更好的效果），而是说与问题的复杂度比起来，SVM算法要求的样本数是相对比较少的。

非线性，是指SVM擅长应付样本数据线性不可分的情况，主要通过松弛变量（也有人叫惩罚变量）和核函数技术来实现，这一部分是SVM的精髓，以后会详细讨论。多说一句，关于文本分类这个问题究竟是不是线性可分的，尚没有定论，因此不能简单的认为它是线性可分的而作简化处理，在水落石出之前，只好先当它是线性不可分的（反正线性可分也不过是线性不可分的一种特例而已，我们向来不怕方法过于通用）。

高维模式识别是指样本维数很高，例如文本的向量表示，如果没有经过另一系列文章（《文本分类入门》）中提到过的降维处理，出现几万维的情况很正常，其他算法基本就没有能力应付了，SVM却可以，主要是因为SVM 产生的分类器很简洁，用到的样本信息很少（仅仅用到那些称之为“支持向量”的样本，此为后话），使得即使样本维数很高，也不会给存储和计算带来大麻烦。（相对照而言，kNN算法在分类时就要用到所有样本，样本数巨大，每个样本维数再一高，这日子就没法过了……）。

下一节开始正式讨论SVM。别嫌我说得太详细哦。

分享到：

SVM入门（二）线性分类器Part 1 | <转> 据说是97年国际程序员大赛一等奖作品

2010-04-19 23:48
浏览 2033
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

SVM学习<一>

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

SVM学习<一>

评论

发表评论

相关推荐

文本分类入门（番外篇）特征选择与特征权重计算的区别

文本分类入门（十一）特征选择方法之信息增益

SVM入门（十）将SVM用于多类分类

SVM入门（九）松弛变量（续）

SVM入门（八）松弛变量

SVM入门（七）为何需要核函数

SVM入门（六）线性分类器的求解——问题的转化，直观角度

SVM入门（五）线性分类器的求解——问题的描述Part2

SVM入门（四）线性分类器的求解——问题的描述Part1

SVM入门（三）线性分类器Part 2

SVM入门（二）线性分类器Part 1

最近访客更多访客>>