1、支持向量机通俗导论(理解SVM的三层境界) 作者: 日期:39 支持向量机通俗导论(理解SVM的三层境界) 在本文中,你将看到,理解SVM分三层境界, 第一层、了解SVM(你只需要对SVM有个大致的了解,知道它是个什么东西便已足够); 第二层、深入SVM(你将跟我一起深入SVM的内部原理,通宵其各处脉络,以为将来运用它时游刃有余); 第三层、证明SVM(当你了解了所有的原理之后,你会有大笔一挥,尝试证明它的冲动);第一层、了解SVM1.0、什么是支持向量机SVM 然在进入第一层之前,你只需了解什么是支持向量机SVM就够了,而要明白什么是SVM,便得从分类说起。 分类作为数据挖掘领域中一项非常重
2、要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器),该模型能吧数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知类别。 其实,若叫分类,可能会有人产生误解,以为凡是分类就是把一些东西或样例按照类别给区分开来,实际上,分类方法是一个机器学习的方法,分类也成为模式识别,或者在概率统计中称为判别分析问题。 你甚至可以想当然的认为,分类就是恰如一个商场进了一批新的货物,你现在要根据这些货物的特征分门别类的摆放在相关的架子上,这一过程便可以理解为分类,只是它由训
3、练有素的计算机程序来完成。 说实话,上面这么介绍分类可能你不一定内心十分清楚。我来举个例子吧,比如心脏病的确诊中,如果我要完全确诊某人得了心脏病,那么我必须要进行一些高级的手段,或者借助一些昂贵的机器,那么若我们没有那些高科技医疗机器怎么办?还怎么判断某人是否得了心脏病呢? 当然了,古代中医是通过望、闻、问、切“四诊”,但除了这些,我们在现代医学里还是可以利用一些比较容易获得的临床指标进行推断某人是否得了心脏病。如作为一个医生,他可以根据他以往诊断的病例对很多个病人(假设是500个)进行彻底的临床检测之后,已经能够完全确定了哪些病人具有心脏病,哪些没有。因为,在这个诊断的过程中,医生理所当然的
4、记录了他们的年龄,胆固醇等10多项病人的相关指标。那么,以后,医生可以根据这些临床资料,对后来新来的病人通过检测那10多项年龄、胆固醇等指标,以此就能推断或者判定病人是否有心脏病,虽说不能达到100%的标准,但也能达到80、90%的正确率,而这一根据以往临场病例指标分析来推断新来的病例的技术,即成为分类classification技术。 OK,既然讲到了病例诊断这个例子,接下来咱们就以这个例子来简单分析下SVM。假定是否患有心脏病与病人的年龄和胆固醇水平密切相关,下表对应10个病人的临床数据(年龄用x1表示,胆固醇水平用x2表示): 这样,问题就变成了一个在二维空间上的分类问题,可以在平面直角
5、坐标系中描述如下:根据病人的两项指标和有无心脏病,把每个病人用一个样本点来表示,有心脏病者用“+”形点表示,无心脏病者用圆形点,如下图所示: 如此我们很明显的看到,是可以在平面上用一条直线把圆点和“+”分开来的。当然,事实上,还有很多线性不可分的情况,下文将会具体描述。 So,本文将要介绍的支持向量机SVM算法便是一种分类方法。 所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量(简单来说,就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点,下文将具体解释),二这里的“机”是什么意思。我先来回答第二点:这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一
6、些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习,请参见第一篇),它广泛的应用于统计分类以及回归分析中。 支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。 对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的),那么,了解到这里便足够了,不需上层。而对于那些喜欢深入研究一个东西的同学,甚至究其本质的,咱们则还有很长的一段路要走,万里长征,咱们开始迈
7、第一步吧(相信你能走完)。1.1、线性分类 OK,在讲SVM之前,咱们必须先弄清楚一个概念:线性分类器(也可以叫做感知机,这里的机表示的还是一种算法,本文第三部分、证明SVM中会详细阐述)。 这里我们考虑的是一个两类的分类问题,数据点用x来表示,这是一个n维向量,而类别用y来表示,可以取 1 或者 -1 ,分别代表两个不同的类。一个线性分类器就是要在n维的数据空间中找到一个超平面,其方程可以表示为:wTx+b=0 对应的几何示意图如下:1.2、线性分类的一个例子 来理论可能读者看不懂,咱们来直接举一个例子吧,且举最简单的例子,一个二维平面(一个超平面,在二维空间中的例子就是一条直线),如下图所
8、示,平面上有两种不同的点,分别用两种不同的颜色表示,一种为红颜色的点,另一种则为蓝颜色的点,红颜色的线表示一个可行的超平面。 从上图中我们可以看出,这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面,也就是说,这个所谓的超平面的的确确便把这两种不同颜色的数据点分隔开来,在超平面一边的数据点所对应的y全是 -1 ,而在另一边全是 1 。 接着,我们可以令分类函数(下文将一直用蓝色表示分类函数)f(x)=wTx+b, 显然,如果f(x)=0,那么x是位于超平面上的点。我们不妨要求对于所有满足f(x)0则对应y=1的数据点。 (有一朋友飞狗来自Mare_Desi
9、derii,看了上面的定义之后,问道:请教一下SVM functional margin 为 =y(wTx+b)=yf(x)中的Y是只取1和-1 吗?y的唯一作用就是确保functional margin的非负性?真是这样的么?当然不是,详情请见本文评论下第43楼)当然,有些时候(或者说大部分时候)数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。更进一步,我们在进行分类的时候,将数据点x代入f(x)中,如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大
10、于 0 则赋予类别 1 。如果f(x)=0,则很难办了,分到哪一类都不是(后续会说明此种情况)。1.3、函数间隔Functional margin与几何间隔Geometrical margin 一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。在超平面w*x+b=0确定的情况下,|w*x+b|能够相对的表示点x到距离超平面的远近,而w*x+b的符号与类标记y的符号是否一致表示分类是否正确,所以,可以用量y*(w*x+b)的正负性来判定或表示分类的正确性和确信度,于此,我们便引出了函数间隔functional margin的概念。1.3.1、函数间隔Functional mar
11、gin 我们定义函数间隔functional margin为: =y(wTx+b)=yf(x), 接着,我们定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔最小值,即:=mini (i=1,.n) 然与此同时,问题就出来了。上述定义的函数间隔虽然可以表示分类预测的正确性和确信度,但在选择分类超平面时,只有函数间隔还远远不够,因为如果成比例的改变w和b,如将他们改变为2w和2b,虽然此时超平面没有改变,但函数间隔的值f(x)却变成了原来的改变(代进去一眼便看出来了)。其实,我们可以对法向量w加些约束条件,使其表面上看起来规范化,如此,我们
12、很快又将引出真正定义点到超平面的距离-几何间隔geometrical margin的概念。1.3.2、点到超平面的距离定义:几何间隔Geometrical margin 在给出几何间隔的定义之前,咱们首先来看下,如上图所示,对于一个点x,令其垂直投影到超平面上的对应的为x0,由于w是垂直于超平面的一个向量,我们有x=x0+ww (|w|表示的是范数,关于范数的概念参见: 又由于x0是超平面上的点,满足f(x0)=0,代入超平面的方程即可算出(别忘了,上面的定义,=y(wTx+b)=yf(x):=wTx+bw=f(x)w(有的书上会写成把|w| 分开相除的形式,如本文参考文献及推荐阅读条目9,其
13、中,|w|为w的二阶泛数) 不过,这里的是带符号的,我们需要的只是它的绝对值,因此类似地,也乘上对应的类别y即可,因此实际上我们定义几何间隔geometrical margin为:=y=w(代人相关式子可以得出:yi*(w/|w| + b/|w|)) 正如本文评论下读者popol1991留言:函数间隔y*(wx+b)=y*f(x)实际上就是|f(x)|,只是人为定义的一个间隔度量;而几何间隔|f(x)|/|w|才是直观上的点到超平面距离。 想想二维空间里的点到直线公式:假设一条直线的方程为ax+by+c=0,点P的坐标是(x0,y0),则点到直线距离为|ax0+by0+c|/sqrt(a2+b
14、2)。如下图所示: 那么如果用向量表示,设w=(a,b),f(x)=wx+c,那么这个距离不正是|f(p)|/|w|么?OK,下图中xi,和xj分别到超平面的距离:1.4、最大间隔分类器Maximum Margin Classifier的定义 于此,我们已经很明显的看出,函数间隔functional margin 和 几何间隔geometrical margin 相差一个w的缩放因子。按照我们前面的分析,对一个数据点进行分类,当它的 margin 越大的时候,分类的 confidence 越大。对于一个包含n个点的数据集,我们可以很自然地定义它的 margin 为所有这n个点的 margin
15、值中最小的那个。于是,为了使得分类的 confidence 高,我们希望所选择的超平面hyper plane能够最大化这个 margin 值。 通过上节,我们已经知道:1、functional margin 明显是不太适合用来最大化的一个量,因为在 hyper plane 固定以后,我们可以等比例地缩放w的长度和b的值,这样可以使得f(x)=wTx+b的值任意大,亦即 functional margin可以在 hyper plane 保持不变的情况下被取得任意大,2、而 geometrical margin 则没有这个问题,因为除上了w这个分母,所以缩放w和b的时候的值是不会改变的,它只随着
16、hyper plane 的变动而变动,因此,这是更加合适的一个 margin 。 这样一来,我们的 maximum margin classifier 的目标函数可以定义为:max 当然,还需要满足一些条件,根据 margin 的定义,我们有 其中=w(等价于 = / w,故有稍后的 =1 时, = 1 / |w|),处于方便推导和优化的目的,我们可以令=1(对目标函数的优化没有影响,至于为什么,请见本文评论下第42楼回复),此时,上述的目标函数转化为(其中,s.t.,即subject to的意思,它导出的是约束条件): 通过求解这个问题,我们就可以找到一个 margin 最大的 classi
17、fier ,如下图所示,中间的红色线条是 Optimal Hyper Plane ,另外两条线到红线的距离都是等于的(便是上文所定义的geometrical margin,当令=1时,便为1/|w|,而我们上面得到的目标函数便是在相应的约束条件下,要最大化这个1/|w|值): 通过最大化 margin ,我们使得该分类器对数据进行分类时具有了最大的 confidence 。但,这个最大分类间隔器到底是用来干嘛的呢?很简单,SVM 通过使用最大分类间隙Maximum Margin Classifier来设计决策最优分类超平面,而为何是最大间隔,却不是最小间隔呢?因为最大间隔能获得最大稳定性与区分
18、的确信度,从而得到良好的推广能力(超平面之间的距离越大,分离器的推广能力越好,也就是预测精度越高,不过对于训练数据的误差不一定是最小的.2012.08.21updated)。 So,对于什么是Support Vector Machine ,我们可以先这样理解,如上图所示,我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线(在高维空间中也应该是两个 hyper plane)上有一些点,显然两个超平面hyper plane 上都会有点存在,否则我们就可以进一步扩大 gap ,也就是增大的值了。这些点,就叫做 support vector。下文1.5节将更为具体描述。1
19、.5、到底什么是Support Vector 上节,我们介绍了Maximum Margin Classifier,但并没有具体阐述到底什么是Support Vector,本节,咱们来重点阐述这个概念。咱们不妨先来回忆一下上节1.4节最后一张图: 可以看到两个支撑着中间的 gap 的超平面,它们到中间的纯红线separating hyper plane 的距离相等,即我们所能得到的最大的 geometrical margin。而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量Support Vector。 很显然,由于这些 supporting vector 刚好在边界上,
20、所以它们是满足y(wTx+b)=1(还记得我们把 functional margin 定为 1 了吗?上节中:“处于方便推导和优化的目的,我们可以令=1”),而对于所有不是支持向量的点,也就是在“阵地后方”的点,则显然有y(wTx+b)1。当然,通常除了 K-Nearest Neighbor 之类的Memory-based Learning算法,通常算法也都不会直接把所有的点记忆下来,并全部用来做后续 inference 中的计算。不过,如果算法使用了Kernel 方法进行非线性化推广的话,就会遇到这个问题了。Kernel 方法在下文第二部分2.2节中介绍)。 OK,到此为止,算是了解到了SV
21、M的第一层,对于那些只关心怎么用SVM的朋友便已足够,不必再更进一层深究其更深的原理。第二层、深入SVM2.1、从线性可分到线性不可分 当然,除了在上文中所介绍的从几何直观上之外,支持向量的概念也可以从其优化过程的推导中得到。虽然上文1.4节给出了目标函数,却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数(subject to导出的则是约束条件): 这个问题等价于(w由分母变成分子,从而也有原来的max问题变为min问题,很明显,两者问题等价):1. 到这个形式以后,就可以很明显地看出来,它是一个凸优化问题,或者更具体地说,它是一个二次优化问题目标函数是二次的,约束条
22、件是线性的。这个问题可以用任何现成的QP (Quadratic Programming)的优化包进行求解。所以,我们的问题到此为止就算全部解决了。2. 虽然这个问题确实是一个标准的 QP 问题,但是它也有它的特殊结构,通过Lagrange Duality变换到对偶变量 (dual variable) 的优化问题之后,可以找到一种更加有效的方法来进行求解,而且通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。 也就说,除了用解决QP问题的常规方法之外,还可以应用拉格朗日对偶性,通过求解对偶问题得到最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往
23、往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。 ok,接下来,你将看到“对偶变量dual variable的优化问题”等类似的关键词频繁出现,便是解决此凸优化问题的第二种更为高效的解-对偶变量的优化求解. 至于上述提到,关于什么是Lagrange duality,简单地来说,通过给每一个约束条件加上一个 Lagrange multiplier(拉格朗日乘值):,我们可以将约束条件融和到目标函数里去(也就是说把条件融合到一个函数里头,现在只用一个函数表达式便能清楚的表达出我们的问题): 然后我们令 容易验证,当某个约束条件不满足时,例如yi(wTxi+b)F是从输入空间到某个
24、特征空间的映射,这意味着建立非线性学习器分为两步:1. 首先使用一个非线性映射将数据变换到一个特征空间F,2. 然后在特征空间使用线性学习器分类。 在上文我提到过对偶形式,而这个对偶形式就是线性学习器的一个重要性质,这意味着假设可以表达为训练点的线性组合,因此决策规则可以用测试点和训练点的内积来表示: 如果有一种方式可以在特征空间中直接计算内积(xi(x),就像在原始输入点的函数中一样,就有可能将两个步骤融合到一起建立一个非线性的学习器,这样直接计算法的方法称为核函数方法,于是,核函数便横空出世了。 这里我直接给出一个定义:核是一个函数K,对所有x,z(-X,满足,这里是从X到内积特征空间F的
25、映射。 3、总而言之,举个简单直接点的例子,则是如果不是用核技术,就会先计算线性映射phy(x1)和phy(x2),然后计算这两个特征的内积,使用了核技术之后,先把phy(x1)和phy(x2)的通用表达式子:=k( )计算出来,注意到这里的表示内积,k( , )就是对应的核函数,这个表达往往非常简单,所以计算非常方便。 . OK,接下来,咱们就进一步从外到里,来探探这个核函数的真面目。2.2.1、如何处理非线性数据 在2.1节中我们介绍了线性情况下的支持向量机,它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过,由于是线性方法,所以对非线性的数据就没有办法处理了。举个例子来说,则是如
26、下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据本身就是线性不可分的,你准备如何把这两类数据分开呢(下文将会有一个相应的三维空间图)? 上图所述的这个数据集,就是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以,一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。如果用X1和X2来表示这个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式:a1X1+a2X21+a3X2+a4X22+a5X1X2+a6=0 注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为Z1=X1,Z2=X21,Z3=X2,Z4=X22,Z
27、5=X1X2,那么显然,上面的方程在新的坐标系下可以写作:i=15aiZi+a6=0 关于新的坐标Z,这正是一个 hyper plane 的方程!也就是说,如果我们做一个映射:R2R5,将X按照上面的规则映射为Z,那么在新的空间中原来的数据将变成线性可分的,从而使用之前我们推导的线性分类算法就可以进行处理了。这正是Kernel方法处理非线性问题的基本思想。2.2.2、特征空间的隐式映射:核函数 再进一步描述 Kernel 的细节之前,不妨再来看看这个例子映射过后的直观例子。当然,你我可能无法把 5 维空间画出来,不过由于我这里生成数据的时候就是用了特殊的情形,具体来说,我这里的超平面实际的方程
28、是这个样子(圆心在X2轴上的一个正圆):a1X21+a2(X2c)2+a3=0 因此我只需要把它映射到Z1=X21,Z2=X22,Z3=X2这样一个三维空间中即可,下图即是映射之后的结果,将坐标轴经过适当的旋转,就可以很明显地看出,数据是可以通过一个平面来分开的: 现在让我们再回到 SVM 的情形,假设原始的数据时非线性的,我们通过一个映射()将其映射到一个高维空间中,数据变得线性可分了,这个时候,我们就可以使用原来的推导来进行计算,只是所有的推导现在是在新的空间,而不是原始空间中进行。当然,推导过程也并不是可以简单地直接类比的,例如,原本我们要求超平面的法向量w,但是如果映射之后得到的新空间
29、的维度是无穷维的(确实会出现这样的情况,比如后面会提到的 高斯核Gaussian Kernel),要表示一个无穷维的向量描述起来就比较麻烦。于是我们不妨先忽略过这些细节,直接从最终的结论来分析,回忆一下,我们上一次2.1节中得到的最终的分类函数是这样的: 现在则是在映射过后的空间,即: 而其中的也是通过求解如下 dual 问题而得到的: 这样一来问题就解决了吗?似乎是的:拿到非线性数据,就找一个映射,然后一股脑把原来的数据映射到新空间中,再做线性 SVM 即可。不过事实上没有这么简单!其实刚才的方法稍想一下就会发现有问题:在最初的例子里,我们对一个二维空间做映射,选择的新空间是原始空间的所有一
30、阶和二阶的组合,得到了五个维度;如果原始空间是三维,那么我们会得到 19 维的新空间,这个数目是呈爆炸性增长的,这给的计算带来了非常大的困难,而且如果遇到无穷维的情况,就根本无从计算了。所以就需要 Kernel 出马了。 不妨还是从最开始的简单例子出发,设两个向量和,而即是到前面2.2.1节说的五维空间的映射,因此映射过后的内积为: (公式说明:上面的这两个推导过程中,所说的前面的五维空间的映射,这里说的前面便是文中2.2.1节的所述的映射方式,仔细看下2.2.1节的映射规则,再看那第一个推导,其实就是计算x1,x2各自的内积,然后相乘相加即可,第二个推导则是直接平方,去掉括号,也很容易推出来
31、) 另外,我们又注意到: 二者有很多相似的地方,实际上,我们只要把某几个维度线性缩放一下,然后再加上一个常数维度,具体来说,上面这个式子的计算结果实际上和映射 之后的内积的结果是相等的。区别在于什么地方呢?1. 一个是映射到高维空间中,然后再根据内积的公式进行计算;2. 而另一个则直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果。 (公式说明:上面之中,最后的两个式子,第一个算式,是带内积的完全平方式,可以拆开,然后,通过凑一个得到,第二个算式,也是根据第一个算式凑出来的) 回忆刚才提到的映射的维度爆炸,在前一种方法已经无法计算的情况下,后一种方法却依旧能从容处理,甚至是无穷维度
32、的情况也没有问题。 我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数(Kernel Function) ,例如,在刚才的例子中,我们的核函数为: 核函数能简化映射空间中的内积运算刚好“碰巧”的是,在我们的SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式子,现在我们的分类函数为: 其中由如下 dual 问题计算而得: (细心的读者读至此处,对于:“转换成求maxL(w,b,)后怎么求的值呢?”,可能依然心存疑惑,没关系,我告诉你,在本文文末的参考文献及推荐阅读的条目9:统计学习方法李航著,中的第7章第7.4节、SMO-序列最小最优化算法的内有
33、提到关于a的求解过程,读者有兴趣可以参考之) 这样一来计算的问题就算解决了,避开了直接在高维空间中进行计算,而结果却是等价的!当然,因为我们这里的例子非常简单,所以我可以手工构造出对应于的核函数出来,如果对于任意一个映射,想要构造出对应的核函数就很困难了。 最理想的情况下,我们希望知道数据的具体形状和分布,从而得到一个刚好可以将数据映射成线性可分的,然后通过这个得出对应的进行内积计算。然而,第二步通常是非常困难甚至完全没法做的。不过,由于第一步也是几乎无法做到,因为对于任意的数据分析其形状找到合适的映射本身就不是什么容易的事情,所以,人们通常都是“胡乱”选择映射的,所以,根本没有必要精确地找出
34、对应于映射的那个核函数,而只需要“胡乱”选择一个核函数即可我们知道它对应了某个映射,虽然我们不知道这个映射具体是什么。由于我们的计算只需要核函数即可,所以我们也并不关心也没有必要求出所对应的映射的具体形式。 当然,也并不是任意的二元函数都可以作为核函数,所以除非某些特殊的应用中可能会构造一些特殊的核(例如用于文本分析的文本核,注意其实使用了 Kernel 进行计算之后,其实完全可以去掉原始空间是一个向量空间的假设了,只要核函数支持,原始数据可以是任意的“对象”比如文本字符串),通常人们会从一些常用的核函数中选择(根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数),例如: 多项式核,显然刚才我们举的例子是这里多项式核的一个特例()。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的,该空间的维度是,其中是原始空间的维度。 高斯核,这个核就是最