1、第 卷湖北师范大学学报(自然科学版)第 期 ()基于 损失的稳健学习刘国旺刘 杰黄收友(中电福富信息科技有限公司福建 福州 湖北师范大学 数学与统计学院湖北 黄石)摘要:研究了具有 损失的稳健学习的性能 作为传统经验风险最小化形成的稳健学习算法回归在机器学习中得到了广泛的应用 建立了一个新的比较定理刻画冗余泛化误差与预测误差之间的差距 最后通过仿真验证证明了 损失的稳健性关键词:损失稳健学习条件矩中图分类号:.文献标志码:文章编号:():./.随着大数据时代的发展 损失函数已经在很多领域应用起来例如机器学习和人工智能、脑神经网络、医学影像疾病治疗等 损失在机器学习中应用非常广泛在解决问题的过程
2、中我们首先关注的是我们的数据和算法 算法的范围很广最主要的包括三部分即:假设函数、损失函数和算法优化 在解决问题时我们更多的注重的是假设函数大多都忽视了损失函数 损失就是一种用于回归问题的带参损失函数能够增强平方误差损失函数对离群点的稳健性 在已有的研究领域中可以看到文献通过引入 损失函数来改进数据模糊等品质问题为睡眠脑电分析供了有效的方法文献在数值微分问题上使用 函数作为正则化方法中的稳定性来解决问题提高了精度和稳定性文献表明在大数据处理方面 损失的应用也很广泛在很多智能系统的研发和检测方面都有显著的成效 准备知识为了更好地对本文的主要结果进行阐述这一节中介绍了一些准备知识假设 存在一个常数
3、 满足 ()()()本文将基于可加噪声模型 ()()其中()即均值为零的噪声变量在学习理论的框架内本文的目的是从样本中学习回归函数 定义回归函数为()()()其中()是给定 时的 条件概率假设 假设 ()满足收稿日期:基金项目:湖北省自然科学基金黄石联合资助项目()作者简介:刘国旺()男福建福州人硕士工程师研究方向为机器学习.()()()其中.在学习理论框架下首先表示两个随机变量为和其中是输入空间是输出空间分别取 和 中的值 是一个定义在乘积空间 上的未知联合概率分布()是 个独立同分布于()的样本点本文的目的是通过样本去学习一个定义在假设空间 上的函数使其能很好的逼近回归函数()这个目标函数
4、就是经验目标函数即 ()()其中()为经验损失函数()为经验误差其相应的泛化误差为()().众所周知对于高斯噪声是最优的接下来我们定义稳健的经验风险最小函数 ()其中 是尺度参数 损失函数为()()()()()()比较定理本节重点讨论了一个比较定理即控制 损失回归的泛化能力与预测能力之间的差距得到冗余泛化误差的稳健估计定理 在假设 和假设 成立的条件下对于任意定义在 上的可测函数()及回归函数()当 且 ()时则有 ()()()其中.是边际分布 诱导的 距离且常数 为 ()证明 为了方便起见 假设 ()()()且 ()我们有 .此外 根据 和 的有界性 我们不难发现 .对于任意 ()事件 为
5、是它的余集结合文献 中的引理 从而可得()()()()()()()()()()()()()()()()()对于任意()有 ()且 ()根据 损失的定义我们有()()()从而可得 因而要证明该定理只要刻画 即可()()()()()()()()()()()()一方面根据 不等式可知()()()注意到 是 连续的结合()式则有 ()()()()()()()()()()()()()()下面估计 结合假设 我们有 ()()()()()()另一方面结合引理 则有 ()()()()()()()()利用 不等式并结合()式中的估计从而可得 ()()()因此我们可得 ()()()()()()()()()()()
6、()通过结合 和 的估计结论得证即 ()()综上所述结合 和 的估计值得出如下结论 ()()()()其中 ()定理 从而得证结果表明在()阶条件矩下冗余泛化误差()()与 之间的差距为()因此只要 的值足够大差距就可以很小 模型验证为了验证模型的有效性我们对绝对损失函数()、平方损失函数()、互熵损失函数()、损失函数()进行比较从而证明结论.数据的选取与处理本次实验采用 数据集该经典线性回归的数据集 该数据集有 个数据样本个特征共 条数据 该数据集没有缺失值 具体的结果属性如表 所示表 影响房价的结果属性属性名解释类型该镇的人均犯罪率连续值占地面积超过 平方听的住宅用地比例连续值非零售商业用
7、地比例连续值是否邻近 离散值 邻近 不邻近一氧化氮浓度连续值每栋房屋的平均客房数连续值 年之前建成的自用单位比例连续值到波士顿 个就业中心的加权距离连续值到径向公路的可达性指数连续值全值财产税率连续值学生与教师的比例连续值(.)其中 为黑人占比连续值低收入人群占比连续值同类房屋价格的中位数连续值数据大小和维度的不一致都会影响实验的结果 所以在训练之前需要对数据进行标准化处理这里需要对数据进行特征缩放保证数据在同一个量级上 对数据进行归一化处理变换公式为:表示数据极大值为数据极小值同时也对目标变量(房屋价格)做了标准化处理.实验结果与分析首先进行模型设计模型设计是实验的关键步骤这里的模型设计也可
8、以称为网络结构设计就相当于是前面理论知识中所提及的模型的假设空间在本次实验中主要目标是实现模型“向前计算”的过程 本次实验采用三层的神经网络第一层采用线性变换层()输出单元的数目为 第二层采用 作为激活层第三层再次采用线性变换层()作为输出输出单元的数目为.模型设计完成以后就需要通过训练配置寻找模型的最优值简单地说就是通过损失函数来衡量模型的好坏 当模型含有非线性变换或者损失函数的形式比较复杂的时候就需要用梯度下降法来求解 在此次实验的模型训练中数据输入网络的批次大小 学习率.因为对于本次实验的数据集来说样本数比较大并且参数每次只能沿着梯度反方向更新一点所以这里学习方法采用随机梯度下降法()总
9、共训练 次()为了比较绝对损失函数()、平方损失函数()、互熵损失函数()、损失函数()的差异在每次训练时输出损失函数并作为比较指标结果如图 所示:图 损失函数图像由图 我们可以看出 损失函数图像最光滑且损失函数值最小说明在 损失函数下的模型最稳健 进一步证明了我们文章的结论 结论本文从理论角度研究了 回归的性能 该方法可以减小损失计算中奇异数据点的权重避免模型过度拟合 与最小二乘线性回归相比 回归减少了对离群值的惩罚 因此 损失在稳健学习中越来越受欢迎 通过引入一种弱矩条件得到了 损失的一些改进的理论结果这主要体现在两个方面 一方面建立了一个新的比较定理 它在改进近似误差估计和改进方差方面起
10、着重要的作用 另一方面得到了改进的收敛速度 结果表明()的条件矩在学习理论分析中起着关键作用此外稳健化参数应适应样本量、重尾误差矩条件和维数以便于在偏差和稳健性之间取得良好的平衡实际上在()的条件矩下 损失的稳健学习仍然是稀疏的我们需要进一步研究具有 损失的稳健 学习参考文献:肖 丹.面向大数据的在线 支持向量回归算法的构建及应用研究.南京:南京邮电大学.伍浩琛边家文陈保周等.坐标时间序列时变振幅周期信号的 估计.测绘科学():.冯林娅 姚 力 赵小杰.引入 损失函数的睡眠脑电数据增强模型研究.北京师范大学学报(自然科学版)():.闵 涛 刘 静.基于 函数的数值微分正则化方法.应用泛函分析学报 ():.潘莹丽 刘 展 蔡 雯.大数据背景下基于 回归模型的分布式优化方法研究.数学的实践与认识():.黄收友陈迪荣.基于随机投影的回归分析.中国科学:数学():.黄收友范凯旋黄冠利.弱矩条件下的误差估计 湖北师范大学学报(自然科学版)():.(.):.: