基于Huber损失的稳健学习.pdf

资源描述

1、第卷湖北师范大学学报(自然科学版)第期 ()基于损失的稳健学习刘国旺刘杰黄收友(中电福富信息科技有限公司福建福州湖北师范大学数学与统计学院湖北黄石)摘要:研究了具有损失的稳健学习的性能作为传统经验风险最小化形成的稳健学习算法回归在机器学习中得到了广泛的应用建立了一个新的比较定理刻画冗余泛化误差与预测误差之间的差距最后通过仿真验证证明了损失的稳健性关键词:损失稳健学习条件矩中图分类号:.文献标志码:文章编号:():./.随着大数据时代的发展损失函数已经在很多领域应用起来例如机器学习和人工智能、脑神经网络、医学影像疾病治疗等损失在机器学习中应用非常广泛在解决问题的过程

2、中我们首先关注的是我们的数据和算法算法的范围很广最主要的包括三部分即:假设函数、损失函数和算法优化在解决问题时我们更多的注重的是假设函数大多都忽视了损失函数损失就是一种用于回归问题的带参损失函数能够增强平方误差损失函数对离群点的稳健性在已有的研究领域中可以看到文献通过引入损失函数来改进数据模糊等品质问题为睡眠脑电分析供了有效的方法文献在数值微分问题上使用函数作为正则化方法中的稳定性来解决问题提高了精度和稳定性文献表明在大数据处理方面损失的应用也很广泛在很多智能系统的研发和检测方面都有显著的成效准备知识为了更好地对本文的主要结果进行阐述这一节中介绍了一些准备知识假设存在一个常数

3、满足 ()()()本文将基于可加噪声模型 ()()其中()即均值为零的噪声变量在学习理论的框架内本文的目的是从样本中学习回归函数定义回归函数为()()()其中()是给定时的条件概率假设假设 ()满足收稿日期:基金项目:湖北省自然科学基金黄石联合资助项目()作者简介:刘国旺()男福建福州人硕士工程师研究方向为机器学习.()()()其中.在学习理论框架下首先表示两个随机变量为和其中是输入空间是输出空间分别取和中的值是一个定义在乘积空间上的未知联合概率分布()是个独立同分布于()的样本点本文的目的是通过样本去学习一个定义在假设空间上的函数使其能很好的逼近回归函数()这个目标函数

4、就是经验目标函数即 ()()其中()为经验损失函数()为经验误差其相应的泛化误差为()().众所周知对于高斯噪声是最优的接下来我们定义稳健的经验风险最小函数 ()其中是尺度参数损失函数为()()()()()()比较定理本节重点讨论了一个比较定理即控制损失回归的泛化能力与预测能力之间的差距得到冗余泛化误差的稳健估计定理在假设和假设成立的条件下对于任意定义在上的可测函数()及回归函数()当且 ()时则有 ()()()其中.是边际分布诱导的距离且常数为 ()证明为了方便起见假设 ()()()且 ()我们有 .此外根据和的有界性我们不难发现 .对于任意 ()事件为

5、是它的余集结合文献中的引理从而可得()()()()()()()()()()()()()()()()()对于任意()有 ()且 ()根据损失的定义我们有()()()从而可得因而要证明该定理只要刻画即可()()()()()()()()()()()()一方面根据不等式可知()()()注意到是连续的结合()式则有 ()()()()()()()()()()()()()()下面估计结合假设我们有 ()()()()()()另一方面结合引理则有 ()()()()()()()()利用不等式并结合()式中的估计从而可得 ()()()因此我们可得 ()()()()()()()()()()()

6、()通过结合和的估计结论得证即 ()()综上所述结合和的估计值得出如下结论 ()()()()其中 ()定理从而得证结果表明在()阶条件矩下冗余泛化误差()()与之间的差距为()因此只要的值足够大差距就可以很小模型验证为了验证模型的有效性我们对绝对损失函数()、平方损失函数()、互熵损失函数()、损失函数()进行比较从而证明结论.数据的选取与处理本次实验采用数据集该经典线性回归的数据集该数据集有个数据样本个特征共条数据该数据集没有缺失值具体的结果属性如表所示表影响房价的结果属性属性名解释类型该镇的人均犯罪率连续值占地面积超过平方听的住宅用地比例连续值非零售商业用

7、地比例连续值是否邻近离散值邻近不邻近一氧化氮浓度连续值每栋房屋的平均客房数连续值年之前建成的自用单位比例连续值到波士顿个就业中心的加权距离连续值到径向公路的可达性指数连续值全值财产税率连续值学生与教师的比例连续值(.)其中为黑人占比连续值低收入人群占比连续值同类房屋价格的中位数连续值数据大小和维度的不一致都会影响实验的结果所以在训练之前需要对数据进行标准化处理这里需要对数据进行特征缩放保证数据在同一个量级上对数据进行归一化处理变换公式为:表示数据极大值为数据极小值同时也对目标变量(房屋价格)做了标准化处理.实验结果与分析首先进行模型设计模型设计是实验的关键步骤这里的模型设计也可

8、以称为网络结构设计就相当于是前面理论知识中所提及的模型的假设空间在本次实验中主要目标是实现模型“向前计算”的过程本次实验采用三层的神经网络第一层采用线性变换层()输出单元的数目为第二层采用作为激活层第三层再次采用线性变换层()作为输出输出单元的数目为.模型设计完成以后就需要通过训练配置寻找模型的最优值简单地说就是通过损失函数来衡量模型的好坏当模型含有非线性变换或者损失函数的形式比较复杂的时候就需要用梯度下降法来求解在此次实验的模型训练中数据输入网络的批次大小学习率.因为对于本次实验的数据集来说样本数比较大并且参数每次只能沿着梯度反方向更新一点所以这里学习方法采用随机梯度下降法()总

9、共训练次()为了比较绝对损失函数()、平方损失函数()、互熵损失函数()、损失函数()的差异在每次训练时输出损失函数并作为比较指标结果如图所示:图损失函数图像由图我们可以看出损失函数图像最光滑且损失函数值最小说明在损失函数下的模型最稳健进一步证明了我们文章的结论结论本文从理论角度研究了回归的性能该方法可以减小损失计算中奇异数据点的权重避免模型过度拟合与最小二乘线性回归相比回归减少了对离群值的惩罚因此损失在稳健学习中越来越受欢迎通过引入一种弱矩条件得到了损失的一些改进的理论结果这主要体现在两个方面一方面建立了一个新的比较定理它在改进近似误差估计和改进方差方面起

10、着重要的作用另一方面得到了改进的收敛速度结果表明()的条件矩在学习理论分析中起着关键作用此外稳健化参数应适应样本量、重尾误差矩条件和维数以便于在偏差和稳健性之间取得良好的平衡实际上在()的条件矩下损失的稳健学习仍然是稀疏的我们需要进一步研究具有损失的稳健学习参考文献:肖丹.面向大数据的在线支持向量回归算法的构建及应用研究.南京:南京邮电大学.伍浩琛边家文陈保周等.坐标时间序列时变振幅周期信号的估计.测绘科学():.冯林娅姚力赵小杰.引入损失函数的睡眠脑电数据增强模型研究.北京师范大学学报(自然科学版)():.闵涛刘静.基于函数的数值微分正则化方法.应用泛函分析学报 ():.潘莹丽刘展蔡雯.大数据背景下基于回归模型的分布式优化方法研究.数学的实践与认识():.黄收友陈迪荣.基于随机投影的回归分析.中国科学:数学():.黄收友范凯旋黄冠利.弱矩条件下的误差估计湖北师范大学学报(自然科学版)():.(.):.:

展开阅读全文