1、今天内容n核回归n核方法nKernel trickn正则化理论1非参数回归n参数回归(线性回归)时,假设r(x)为线性的。当r(x)不是x的线性函数时,基于最小二乘的回归效果不佳 n非参数回归:不对r(x)的形式做任何假定n局部加权方法:用点x附近的Yi的加权平均表示r(x)2回忆:knnn n回归函数:回归函数:n nKnnKnn:用用训练样本中最邻近训练样本中最邻近x x0 0的的k k个个样本的均值样本的均值估计条件期望估计条件期望n n其中其中 为为x x0 0的邻域,由训练样本中最邻近的邻域,由训练样本中最邻近x x0 0的的k k个点个点x xi i 定义定义3回忆:knnn n例
2、:例:4核回归:Nadaraya-Watsonn n邻域中点的权重不是等权重,而是每个样本的权重邻域中点的权重不是等权重,而是每个样本的权重随其到目标点的距离平滑衰减随其到目标点的距离平滑衰减n n其中其中参数h称为带宽(bandwidth),核函数有时可写为:nK可为任意平滑的函数,满足5常用核函数nEpanechnikov 核:n使风险最小的核函数n高斯核:n三次方核:6核回归:Nadaraya-Watsonn回忆一下回归方程的定义:n分别对 用核密度估计,得到7核回归:Nadaraya-Watsonn证明:8核回归:Nadaraya-Watsonn证明(续)9核回归:Nadaraya-W
3、atsonn这可以被看作是对y取一个加权平均,对x附近的值给予更高的权重:n其中10核回归:Nadaraya-Watsonn将核回归估计写成如下形式:n其中 ,11核回归:Nadaraya-Watsonn类似核密度估计中求期望的展开,得到n同理,n其中12核回归:Nadaraya-Watsonn最后,得到估计的风险为n最佳带宽以 的速率减少,在这种选择下风险以 的速率减少,这是最佳收敛速率(同核密度估计)13核回归:Nadaraya-Watsonn实际应用中,利用交叉验证对求最佳带宽h。交叉验证对风险的估计为n实际上不必每次留下一个计算单独估计,可以写成以下形式14例:Example 20.2
4、3不同带宽下Nadaraya-Watson回归的结果15核回归:Nadaraya-Watsonn模型类型:非参数n损失:平方误差n参数选择:留一交叉验证16局部线性回归n问题:加权核回归在训练数据中靠近边界的点的估计很差n核在边界区域不对称,局部加权平均在边界区域上出现严重偏差 局部线性回归n局部线性回归:在每一个将要被预测的点x处解一个单独的加权最小二乘问题,找到使下述表达式最小的17局部线性回归边界上的N-W核:核在边界不对称偏差大边界上的局部线性回归:将偏差降至一阶蓝色曲线:真实情况绿色曲线:估计值黄色区域:x0的局部区域18核回归:局部线性回归n则估计为:n其中W(x)是一个 的对角矩
5、阵且第i个对角元素是 n估计在yi上是线性的,因为权重项 wi(x)不涉及yi,可被认为是等价核19局部线性回归n局部线性回归通过自动修改核,将偏差降至一阶n由于 ,n偏差 为 20局部线性回归边界上的局部等价核(绿色点)内部区域的局部等价核(绿色点)21局部多项式回归n局部多项式回归:用d次多项式回归代替线性回归n可以考虑任意阶的多项式,但有一个偏差和方差的折中n通常认为:超过线性的话,会增大方差,但对偏差的减少不大,因为局部线性回归能处理大多数的边界偏差,22可变宽度核n可变宽度核:如使每一个训练点的带宽与它的第k个近邻的距离成反比n在实际应用中很好用,虽然尚未有理论支持怎样选择参数n不会
6、改变收敛速度,但在有限样本时表现更好n注意:上述这些扩展(包括局部线性/局部多项式)都可应用到核密度估计中23核方法n为什么要用核方法?n得到更丰富的模型,但仍然采用同样的方法n如岭回归方法核岭回归n内容nKernel trickn再生Hilbert空间24线性模型n线性模型:n方便、应用广泛n有很强的理论保证n但还是有局限性n可以通过扩展特征空间增强线性模型的表示能力n如n特征空间为R6而不是R2特n该特征空间的线性预测器为25岭回归n对给定的n最小化正则化的残差n则最优解为需O(p3)运算26对偶表示n一种对偶表示为:n其中需O(n3)运算27对偶岭回归n为了预测一个新的点n其中n此时只需
7、计算Gram矩阵G岭回归只需计算数据点的内积28特征空间中的线性回归n基本思想:n将数据映射到高维空间(特征空间)n然后在高维空间中用线性方法n嵌入式特征映射:29核函数n则核函数为n其中 为将数据映射到高维空间的映射n有许多可能的核函数n最简单的为核30特征空间中的岭回归n为了预测一个新的点n其中n计算Gram矩阵G利用核函数计算内积31另一种对偶表示推导方式n线性岭回归最小化:n等价于n满足约束n则拉格朗日函数为32Wolfe对偶问题n转化为其对偶问题:n对L求偏导并置为0,得到33Wolfe对偶问题n将 和 代入拉格朗日函数n原目标函数n转化为34最优解n写成矩阵形式为:n得到解:n相应
8、的回归方程为:点积35核化岭回归n将点积 换成核函数nKernel trickn就实现了对线性岭回归的核化,在空间统计学中称为Kriging算法。36核方法n通过将输入空间映射到高维空间(特征空间),然后在高维空间中用线性方法n高维:维数灾难n通过核技巧,避免维数灾难37Kernel Trickn将问题变为其对偶问题:只需计算点积,与特征的维数无关,如在线性岭回归中,最大化下列目标函数n在高维空间中的点积可写成核(kernel)的形式,n如果选定核函数,这无需计算映射 可以计算点积38Kernel Trickn总之,这些被称为核技巧(kernel trick),寻找一个映射:和一个学习方法,使
9、得nF的维数比X高,因此模型更丰富n算法只需要计算点积n存在一个核函数,使得n在算法中任何出现项 的地方,用 代替亦称为原方法的核化(kernelizing the original method).点积核点积核39什么样的函数可以作为核函数?nMercers 定理给出了连续对称函数k可作为核函数的充要条件:半正定n半正定核:n对称:n且对任意训练样本点n和任意n满足nK被称为Gram矩阵或核矩阵。矩阵形式:40半正定核的性质n对称nCauchy-Schwarz不等式41Mercers Theoremn当且仅当一个函数K满足半正定形式时,函数K可以写成n其中 为特征映射:n该核定义了一个函数集
10、合 ,其中每个元素 可以写成n因此某些核对应无限个预测变量的变换MercerMercer核核42RKHS:再生Hilbert空间Reproducing Kernel Hilbert Spacesn为了证明上述定理,构造一个特殊的特征空间定义函数空间再生性质映射到一个函数空间有限、半正定43Mercers Theoremn粗略地说,如果K对可积函数 n是正定的,即n则对K存在对应的n因此K是一个合适的核44Mercer 核n一些常用的核函数满足上述性质:n对字符串、图等对象,也可以构造核函数高斯核:多项式核:sigmoid核:45RKHS:点积空间n定义该函数空间的点积nMercer定理隐含46
11、正则化和RKHSn一种通用的正则化的形式为n假设 f 在RKHS中,则47正则化和RKHSn则求解n转化为求解下述“简单”问题48例:岭回归n当回归分析取平方误差损失时,n因此49正则化的贝叶斯解释n n为贝叶斯MAP估计n其中先验为n似然为n损失函数取L2时,高斯分布:n损失函数取L1时,为Laplace分布:50其他与核方法相关的一些论题n高斯过程n SVMnn关于核方法一本较好的参考书:n支持向量机导论(An Introduction to Support Vector Machines and Other Kernel-based Learning Methods)nNello Cristianini,John Shawe-Taylor著,李国正,王猛,曾华军译,电子工业出版社,北京,2004nBernhard Schlkopf:Introduction to Kernel Methods,Analysis of Patterns Workshop,Erice,Italy,2005nSchlkopf&Smola:Learning with Kernels,MIT Press,200251下节课内容n模型选择:ESL Chp752