收藏 分销(赏)

数据建模中的机器学习方法.pdf

上传人:自信****多点 文档编号:722882 上传时间:2024-02-23 格式:PDF 页数:13 大小:1.20MB
下载 相关 举报
数据建模中的机器学习方法.pdf_第1页
第1页 / 共13页
数据建模中的机器学习方法.pdf_第2页
第2页 / 共13页
数据建模中的机器学习方法.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第1 2卷 第2期2023年6月数学建模及其应用M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n sV o l.1 2 N o.2J u n.2 0 2 3热点与前沿数据建模中的机器学习方法何思杰,刘庆芳,乔 琛(西安交通大学 数学与统计学院,陕西 西安 7 1 0 0 4 9)摘 要:随着人工智能(a r t i f i c i a l i n t e l l i g e n c e,A I)的蓬勃发展,相应的机器学习方法也在不断取得新突破.本文通过对聊天机器人的发展进行回顾,梳理了人工智能和机

2、器学习的基本研究现状,特别是依据任务及算法类型,依次介绍了在数据建模中常用的机器学习技术,包括监督学习、无监督学习、弱监督学习、强化学习和深度学习领域的典型方法或模型.本文最后还对机器学习的未来研究所面临的挑战和可研究方向进行了讨论.关键词:数据建模;机器学习;人工智能;学习模型中图分类号:O 2 9 文献标志码:A 文章编号:2 0 9 5-3 0 7 0(2 0 2 3)0 2-0 0 0 1-1 3 D O I:1 0.1 9 9 4 3/j.2 0 9 5-3 0 7 0.j mm i a.2 0 2 3.0 2.0 1收稿日期:2 0 2 3-0 3-2 0基金项目:国家自然科学基金

3、重大项目(1 2 0 9 0 0 2 1);国家自然科学基金(1 2 2 7 1 4 2 9);陕西省自然科学基础研究计划(2 0 2 2 J M-0 0 5);西安市科技创新计划(2 0 1 9 4 2 1 3 1 5 KY P T 0 0 4 J C 0 0 6)通讯作者:乔琛,E-m a i l:q i a o c h e n x j t u.e d u.c n引用格式:何思杰,刘庆芳,乔琛.数据建模中的机器学习方法J.数学建模及其应用,2 0 2 3,1 2(2):1-1 3.HE S J,L I U Q F,Q I AO CH.M a c h i n e l e a r n i n

4、g m e t h o d s i n d a t a m o d e l i n g(i n C h i n e s e)J.M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n s,2 0 2 3,1 2(2):1-1 3.1 机器学习概述及研究现状1.1 人工智能与机器学习:从聊天机器人说起1 9 5 0年,计算机科学之父、人工智能之父 艾伦图灵,发表了一篇具有划时代意义的论文“C o m p u t i n g M a c h i n e r y a n d I n t e l l i g e

5、 n c e”.在文中,他提出了一个概念:模仿游戏,即大名鼎鼎的图灵测试,即当你面对面与对方聊天时,判断出对方是人或是机器人.如果很难判断出对方是机器人的话,那么在一定程度上,可以认为该机器是智能的1.在接下来的时间里,研究者们先后开发了各种不同类型的聊天机器人.1 9 6 6年诞生于M I T人工智能实验室的E L I Z A,模拟了一个心理医生C a r l R o g e r s,是一个完全基于规则的聊天机器人;还有由美国人工智能大师查德华莱士设计的对话系统A L I C E,获得了2 0 0 0年和2 0 0 1年的人工智能最高荣誉奖洛伯纳奖.以上的聊天机器人都是基于模式匹配的方式,只

6、能选择预案库中的已有知识对所接收的关键词进行回答.这些限定规则的聊天机器人,即使规则再复杂,预设再多,也无法囊括所有问题的答案,更无法创造出新的答案.2 0 1 7年,A s h i s h V a s w a n i等人2发表了论文“A t t e n t i o n I s A l l Y o u N e e d”,推出了一个处理自然语言的网络结构,即T r a n s f o r m e r.T r a n s f o r m e r模型抛弃了以往的时序结构,更准确地说,T r a n s f o r m e r实际上是一种 新 的 编 码 机 制,通 过 多 头 注 意 力(m u l

7、 t i-h e a d a t t e n t i o n)机 制 和 位 置 信 息 编 码(p o s i t i o n a l e n c o d i n g),同时对语义信息和位置信息进行学习.T r a n s f o r m e r利用词向量间的矩阵计算,拥有更强大的特征提取能力,且更容易实现并行.之后的几年里,机器学习领域的从业者们在T r a n s f o r m e r的基础上提出了一些具有里程碑意义的模型,其中最具代表性的是B E R T和G P T系列.2 0 2 2年O p e n A I发布的C h a t G P T,很快被产业界接受,并在读书写字、数字分析、

8、信息提炼、知识总结、方1热点与前沿数据建模中的机器学习方法2 0 2 3年6月法教授、智库分享、自动翻译等领域得到了长足进步,用对话的形式展现了大语言模型在内容整理和摘要方面的突破性进展.从图灵测试到大语言模型,正体现了人类如何探索和学习自身感知、推断、决策和行动等智能的过程,这也正是人工智能的内在驱动和研究目标.机器学习(m a c h i n e l e a r n i n g,ML),作为人工智能内部模型的提炼过程,是一条从数据通往人工智能的技术路径.机器学习的研究目的是设计和分析一些让计算机可以自动学习的算法,即从数据中自动分析从而获得规律,获取新的知识技能,并基于学到的规律对未知数据

9、进行预测,同时利用经验来改善特定算法的性能3.随着机器学习的发展,其模型越来越多地应用到了数据分析中.当前,随着云计算和大数据技术的发展,计算能力、数据采集及存储能力得到了极大提高,同时能够处理更加复杂数据和任务的机器学习新模型正不断涌现,这些都为机器学习在人工智能应用领域的蓬勃发展提供了先决条件.机器学习与计算机视觉、自然语言处理、语音处理以及知识图谱等关键技术紧密结合,相关机器学习算法主要应用于图像分类、语音识别、文本分类等相关场景中,从而提升人工智能技术的整体应用效果,使得人工智能技术在自动翻译、自动驾驶、目标定位/检测、病灶识别、车载语音助手、智慧家居、图像/视频/语音生成等领域实现广

10、泛应用.1.2 机器学习方法概述机器学习方法主要有模型、学习准则和优化算法这3个基本要素.机器学习问题的可用基本数学语言表示:通过学习算法(l e a r n i n g a l g o r i t h m)A,对n个样本进行观测,以最小化预测的期望风险为目标,在函数族f(x,w)中估计依赖关系,找到一个最优预测函数f(x,w0),这个过程称为学习(l e a r n i n g)或训练(t r a i n i n g)4.这里,函数f(x,w)可以称为模型.有了模型的假设空间后,需要确定使用什么样的准则进行学习或者选择最优模型.这其中就涉及到损失函数、期望风险最小化、经验风险最小化和结构风险

11、最小化等学习准则.1)损失函数:样本在给定函数上的误差值L(y,f(x,),用来量化模型预测f(x,)和真实标签y之间的差异.损失函数是一个非负实值函数,损失函数的值越小,模型就越好.2)期望风险函数:给定函数上的期望损失,其公式为:Re x p(f)=XYL(y,f(x,)P(x,y)dxdy.这是模型f(x,)关于联合分布P(X,Y)的平均意义下的风险函数.机器学习的目的在于使期望风险最小化,但是由于可利用信息只有有限个样本,且期望风险往往是无法计算的.而我们所说期望风险最小化原则是用样本定义经验风险.3)经验风险函数:将机器学习问题转换为一个优化问题的最简单的方法是通过最小化训练集上的期

12、望损失.这意味着用训练集上的经验分布替代真实的分布.其公式为:Re m p(f)=1NNi=1L(yi,f(xi,).基于最小化平均训练误差的训练过程被称为经验风险最小化(e m p i r i c a l r i s k m i n i m i z a t i o n).这种情况下并不是直接最优化风险,而是最优化经验风险.需要注意的是,经验风险最小并不等于期望风险最小.4)结构风险函数:过拟合问题往往是由于训练数据少、噪声以及模型能力强等原因造成的.为了解决过拟合问题,提出了结构风险最小化准则(s t r u c t u r a l r i s k m i n i m i z a t i o

13、 n,S RM)策略,其对应的函数称为结构风险函数.在经验风险最小化的基础上,还引入了参数的正则化(r e g u l a r i z a t i o n),目的是限制模型能力,阻止过度地最小化经验风险.最终,结构风险函数公式为:Rs r m(f)=1NNi=1L(yi,f(xi,)+J(f),其中:J(f)为模型的复杂度,是定义在假设空间上的泛函,常用L1范数和L2范数表示;(0)是2第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3用来权衡经验风险和模型复杂度的系数.在确定训练集、假设空间以及学习准则后,如何找到最优的模型f(x,w0)就成了一个最

14、优化问题.机器学习的训练过程其实就是最优化问题的求解过程.1.3 机器学习典型方法机器学习根据任务类型的不同可划分为监督学习、无监督学习、弱监督学习和强化学习.监督学习的任务5是利用已标记的训练数据来训练模型,主要的模型包括K近邻(K-n e a r e s t n e i g h b o r s,KNN)、决策树、朴素贝叶斯、F i s h e r判别器、支持向量机(s u p p o r t v e c t o r m a c h i n e,S VM)和回归模型等.无监督学习的任务6是利用未标记的训练数据来训练模型,主要的模型包括K-m e a n s、谱聚类和降维等.弱监督学习的任务7

15、是用大量的未标记训练数据和少量的已标记数据来训练模型,通过简单的标签去完成困难的任务,主要的模型包括自学习、EM(e x p e c t a t i o n m a x i m i z a t i o n)和多实例学习等.强化学习的任务8是从系统与环境的大量交互知识中训练模型,主要的模型包括Q-l e a r n i n g和D QN(d e e p Q n e t w o r k)等.根据算法类型,机器学习又可以划分为传统统计学习和深度学习9.传统统计学习是基于数学模型的机器学习方法,包括S VM、决策树和KNN等.这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据

16、集的特点.深度学习是基于神经网络的机器学习方法,主要的模型包括 卷 积 神 经 网 络(c o n v o l u t i o n a l n e u r a l n e t w o r k s,C NN)、循 环 神 经 网 络(r e c u r s i v e n e u r a l n e t w o r k s,R NN)、图神经网络(g r a p h n e u r a l n e t w o r k s,GNN)、自动编码器(a u t o e n c o d e r,A E)、受限玻 尔 兹 曼 机(r e s t r i c t e d B o l t z m a n n

17、m a c h i n e s,R BM)和 生 成 式 对 抗 网 络(g e n e r a t i v e a d v e r s a r i a l n e t w o r k s,GAN)等.这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模.但是这类算法在语音、视觉和自然语言等领域非常成功.接下来的章节将依次介绍监督学习、无监督学习、弱监督学习、强化学习和深度学习领域的典型方法或模型.2 监督学习监督学习是一种分类,通过标定类别的方法来训练数据.主要是从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据该函数预测结果.其过程分为两个步骤.步骤1 建模/

18、学习过程.以学习分类规则为目标,通过学习已知数据及其对应的输出(已有的训练样本),再根据目标输出与实际输出之间的误差来调节参数,训练出一个最优模型.步骤2 分类/测试过程.为实现分类目的,利用模型把输入数据映射为对应的输出类别,以此对测试数据进行分类.2.1 K近邻算法K近邻算法(KNN)的基本思想是:给定一个训练数据集X,对于新的输入实例x,从X中找到K个样本,这K个样本的选取采用距离x最近的原则,于是可以把x分类为这K个样本中最可能的类标签.KNN的关键问题是如何定义距离度量,常用的为欧氏距离(E u c l i d e a n d i s t a n c e).设x,yX,x,y间的欧氏

19、距离计算公式为d(x,y)=ni=1(xi-yi)2 1/2.KNN有以下缺点:1)K值选择的影响.较小的K值可能使模型变复杂,易导致过拟合;较大的K值会减少学习的估计误差,但可能会增加学习的近似误差;2)高维空间的可区分性差.在高维空间中,计算得到的相邻点可能并不相近;3)大数据量时计算开销大.需要为数据编制索引,且每次分类都要计算所有数据,对于大型数据集的计算量过大.3热点与前沿数据建模中的机器学习方法2 0 2 3年6月2.2 朴素贝叶斯朴素贝叶斯(n a t i v e B a y e s)用于计算数据为某个标签的概率,并将其分类为概率值最大的标签.朴素贝叶斯主要应用在文本分类和垃圾邮

20、件判定等自然语言处理中的分类问题.其基本思想如下.给定数据集D=d1,d2,dN,计算每个类属性的概率:P(Ci|D)=P(D|Ci)P(D)p(Ci)=P(D|Ci)P(Ci),其中:P(Ci)是先验概率;P(Ci|D)是后验概率.若训练数据独立同分布,则P(D|Ci)=kP(dk|Ci).对于分类问题,需要估计类的先验概率P(Ci)和类的条件概率密度P(x|Ci)两个参数.有很多种方法都可以对类的先验概率P(Ci)进行估计,最常见的方法包括用训练数据中各类出现的频率估计和矩估计方法,有的时候还可以依靠经验1 0.类的条件概率P(x|Ci)的估计方法中,最为主流的有两种:1)参数估计.在已知

21、概率密度函数形式的情况下,通过训练数据来估计其表征函数的参数,常用的参数估计法有极大似然估计和最大后验估计两种;2)非参数估计.在未知密度函数形式的情况下,通过训练数据直接对概率密度进行非参数估计,常采用KNN和P a r z e n窗估计两种方法.2.3 F i s h e r线性判别分类器F i s h e r线性判别分析(l i n e a r d i s c r i m i n a n t a n a l y s i s,L D A)是一种有监督的降维技术,其数据集的每个样本都有类别输出.L D A的思想是最大化类间均值与最小化类内方差.L D A基本原理是:在两类样本之间确定一个投影

22、轴,要求在该轴上的不同类样本间的投影距离之和最远,而同类样本间的投影之和最近,以此得到具有最佳分类效果的投影轴,称之为最佳投影轴1 1.将新样本投影到最佳投影轴上,根据投影点的位置就可以将新样本归到其中某一类.L D A准则描述为用投影后数据的统计性质(均值和离散度的函数)作为判别优劣的标准.L D A在人脸识别、舰艇识别等图形图像识别领域中有非常广泛的应用.2.4 支持向量机支持向量机(S VM)是统计学习理论中的一种非概率的二分类器模型1 2.其基本学习策略是特征空间上间隔最大化,学习得到尽可能远离数据的决策边界,其决策边界是对学习样本求解的最大边距超平面(最优分类面),最终可转化为一个凸

23、二次规划问题来求解.其公式为:f(x)=s i g n(w0 x+b0),其中:x为特征向量;w0为超平面的法向量;b0为超平面的截距;s i g n为指示函数,取值为1或者-1.支持向量是确定决策边界的重要数据.进一步,将训练数据集合中的两类集合边界上的点定义为支持向量,删掉所有的非支持向量,而问题的解不会受到影响.对于新的数据点x,只需代入公式便可得出其分类结果.以最大分类间隔(m a r g i n)正确分开两类的分类面称为最优分类面.其中,分类间隔表示样本集合中到超平面最近的样本与此超平面之间的距离.S VM的核心思想之一就是能控制最大分类间隔值的合理推广能力.2.5 监督学习 回归回

24、归(r e g r e s s i o n)是用于预测的机器学习方法,研究的是目标与预测器之间的关系(也可理解为因变量与自变量),产生一个将数据映射到一个实值预测变量的函数.主要研究问题包括数据序列的趋势特征以及数据/变量间的相关关系等.一般的回归模型的常规求解步骤:1)寻找h函数(即h y p o t h e s i s);4第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 32)构造L函数(代价函数);3)使得L函数最小,并求得回归参数.代价函数中常使用的均方误差其实对应了常用的欧式距离,基于均方误差最小化进行模型求解的方法称为“最小二乘法”(l e

25、 a s t s q u a r e m e t h o d),即通过最小化误差的平方和寻找数据的最佳回归参数匹配.2.5.1 L a s s o回归模型L a s s o方法是一种替代最小二乘法的压缩估计方法1 3.L a s s o的基本思想是在建立正则化模型L1的过程中,设定某些系数为0并压缩某些系数,当模型训练结束,为简化模型,可删掉权值为0的参数.其表达式为a r g m i nRPy-X 22 L o s s+1P e n a l t y.L a s s o回归模型被广泛用于存在多重共线性数据的拟合和变量选择的情况,因其特点是在结构风险最小化的基础上引入正则学习,这有助于特征选择,

26、能有效防止模型过拟合.2.5.2 逻辑回归逻辑回归(l o g i s t i c r e g r e s s i o n,L R)是指学习某事件发生概率的算法,可对某个事件的发生/不发生进行二元分类.逻辑回归使用S i g m o i d函数,输出结果范围在01之间,目标是发现特征与特定结果可能性之间的联系.2.6 决策树决策树(d e c i s i o n t r e e s,D T)是一种树形结构,通过作出一系列决策/选择来对数据进行划分1 4.一棵决策树通常包括1个根节点、多个内部节点和多个叶子节点.通过每个内部节点的属性判断,每个分支输出判断结果,最后的分类结果呈现在叶子节点上.决

27、策树生成过程本质上是一个递归,其中每个节点的分裂目标是尽可能地减少节点的不确定性或熵.3 无监督学习无监督学习(u n s u p e r v i s e d l e a r n i n g)指训练数据在不含有标记的情况下生成模型(通常在缺乏足够先验知识难以人工标注类别,或进行人工类别标注的成本高等情况下),利用数据的统计规律,学习机可以自适应地调整系统的参数,以便数据的某种特征可以被准确地反映出来.无监督学习主要涉及聚类和降维,其中聚类涉及K-m e a n s聚类、层次聚类和谱聚类等算法.降维主要是主成分分析等算法.常见的无监督学习适用场景涵盖发现异常数据、用户类别划分和推荐系统等场景.3

28、.1 聚类聚类(c l u s t e r i n g)的目标是根据距离等特定的标准,划分数据集为不同的簇.划分准则是最大化同一簇内的数据对象的相似性以及最大化不同簇的数据对象的差异性1 5.聚类问题与分类问题区别在于聚类问题的训练数据中没有类别标签.聚类可分为以下步骤:1)数据预处理.对特征进行标准化和降维操作;2)特征选择/特征提取.在向量中存储从原始特征中选择出来的最有效的特征或将选择的特征转换为新的突出特征;3)聚类.基于某种距离函数进行相似度度量,获取簇;4)聚类结果评估.分析聚类结果,如距离误差等.3.1.1 K均值聚类K均值聚类(K-m e a n s c l u s t e r

29、 i n g)算法按相似性对给定数据集进行分组,使得同一组内的数据点比不同组之间的数据点更“像”.具体流程为:1)选取k个初始质心;5热点与前沿数据建模中的机器学习方法2 0 2 3年6月2)对每个数据点,计算距其最近的质心,将其类别标为该质心所对应的簇;3)重复步骤2,计算k个簇对应的质心,直至质心不再发生变化.设xi(i=1,2,n)是数据点,j(j=1,2,k)是第j个数据的中心点,那么目标函数可以写成:m i nni=1kj=1ri kxi-j2.对于ri k,当xi 属于第k个类时,ri k=1,否则为0.3.1.2 谱聚类谱聚类(s p e c t r a l c l u s t

30、e r i n g)是从图论中演化出来的算法.比起K-m e a n s算法,谱聚类对数据分布的适应性更强,同时聚类的计算量也小很多.其主要思想是用数据点构造一张“无向加权图”,权重代表数据点之间的相似性,距离较远的两个点之间的边权重值较低,再把所有数据点组成的图分割成若干子图1 6.其分割准则是使得删掉的边的权重之和尽可能小,子图内的边权重和尽可能大,从而达到聚类的目的.如图1所示.图1 谱聚类“无向加权图”记ql=(q1l,q2l,qn l)T-1,1 n(l=1,2,k)为表示类属的向量,Q=(q1,q2,qk),有:qi l=-1,iAl,1,iAl,其中,Al表示第l个子图包含的顶点

31、指标集.利用所有点之间的权重值,可得到权重矩阵W,也称为相似性矩阵,W=w1 1w1nwn1wn n .每个点的度di定义为和它相连的所有边的权重之和,即di=jwi j,得到度矩阵D,D=d100dn ,则图拉普拉斯矩阵L为L=D-W.因此,关于无向图切图的“最小割”问题可以描述为m i nA1,A2,Akkl=1iAl,jAlwi j,该问题可以等价转化为求解以下问题:m i nQ T r(QTL Q)s.t.qi l 1,-1 ,其中,T r()表示矩阵的迹,即矩阵的对角线元素之和.3.2 降维降维是指遵循不丢失有意义的信息的原则,进行一系列操作(例如特征提取和特征选择),使得数据能够降

32、维.特征选择指根据某些标准(如判断数据是否相关),从数据的原始集合中选择某些重要特征组成子集,降低了空间维度.特征提取指通过空间转化,将原始特征空间转化为不同轴集的不同空间,将高维度数据转化为低维度数据.主成分分析算法就是特征提取的方法.主成分分析(p r i n c i p a l c o m p o n e n t a n a l y s i s,P C A)是把多指标转化为少数几个综合指标,将多个有一定相关性的指标进行线性组合,为目标进行降维,以最少的维度解释原数据中尽可能多的信息1 7.降维后的各变量间彼此线性无关,通过对原始变量的线性组合可确定最终的新变量,主成分在越往后6第1 2卷

33、 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3的过程中对方差的作用就越小.P C A将数据中存在的空间重映射成一个更加紧凑的空间,此种变换后的维度比原来维度更小.4 弱监督学习在许多任务中,由于数据标注过程的成本过高,获取大量的有标注样本难度大,因此采用弱监督的机器学习技术是可取的.对无标注的样本进行学习,是弱监督学习的一种主要方式.弱监督学习非常有效地利用了这些数据,使得模型的性能得到有效提升.常见的弱监督学习有3类.1)不完全监督(i n c o m p l e t e s u p e r v i s i o n):大部分数据没有标签,通常只有训练集中很

34、小的子集带有标签;2)不确切监督(i n e x a c t s u p e r v i s i o n):训练数据仅仅具有粗粒度的标注信息;3)不准确监督(i n a c c u r a t e s u p e r v i s i o n):模型给出的标签不全为真实.4.1 不完全监督学习不完全监督主要应对只有训练集的一个很小的子集含有标签,而大量的样本为无标注的样本.如果仅仅采用有标注的信息训练模型,往往不能得到一个泛化能力强且具有强鲁棒性的模型.应对此不完全监督任务的两种解决方案是主动学习和半监督学习.4.1.1 主动学习主动学习(a c t i v e l e a r n i n g)

35、采用人机交互的方式.主动学习假设存在一个o r a c l e,可以从o r a c l e查询选定的未标注实例的真值标签1 8.假设模型的损失依赖于询问的数目,主动学习的目标就是最小化询问的数目,以此来最小化训练模型的损失.未标记数据通过人工专家等方法进行查询与标注,得到新的标签信息后模型继续迭代.重复上述过程,最终使得人类的经验知识越来越丰富,模型的泛化性能也越来越好.4.1.2 半监督学习半监督学习(s e m i-s u p e r v i s e d l e a r n i n g)结合少量标定训练数据和大量未标定数据进行学习.半监督学习算法的过程无需人工参与,自动开发无标注的数据来

36、提升模型的性能.其训练过程为:通过从训练样本中学习的模型,学习机结合测试样本的分布情况来修正已有的知识,判断并输出测试样本的类别.常见的半监督学习有自学习和EM算法.自学习(s e l f-t r a i n i n g)算法也称为伪标签技术,是初期半监督思想的经典代表.在已标记的数据上训练,然后对未标注数据进行预测,取预测置信度最高的样本直接对其进行标签定义,然后将这类样本纳入当前训练样本中继续训练,直到模型的预测结果不再发生变化.EM算法借鉴了迭代优化的思想,其每一次迭代都分两步:期望步(E步)和极大步(M步).其迭代优化具体步骤为:1)从给定的观测数据中估计出初始模型参数的值;2)用步骤

37、1得到的参数值估计缺失数据的值;3)结合步骤1和2得到的值重新对参数值进行估计;4)重复步骤2和3,反复迭代,直至最后收敛,结束迭代.4.2 不确切监督学习不确切监督关注给定了监督信息,但是监督信息不够准确,仅有粗粒度的标签可用的情形,例如在实例分割中仅仅含有B o u n d i n g B o x标注,而没有像素级别的标注.为了解决不确切监督中的问题,可以考虑多实例学习(m u l t i-i n s t a n c e l e a r n i n g).训练数据集中每一个数据看作一个包(b a g),每个包都由多个实例(i n s t a n c e)构成,每个包有一个可见的实例,多实例

38、学习假设每一个正包必须存在至少一个关键实例.多实例学习的过程就是通过模型对包及其包含的多个实例进行分析预测得出包的标签.多实例学习已成功应用于各种任务,如图像分类/检索/注释、文本分类、垃圾邮件检测、医学诊断、面7热点与前沿数据建模中的机器学习方法2 0 2 3年6月部/对象检测和对象跟踪等.4.3 不准确监督学习不准确监督关注的问题是对于给定的监督信息,有一些是错误的,也就是说信息不总是g r o u n d t r u t h的情况.目前很多理论研究相关问题,其中大多数均假设存在随机的分类噪声,即标签受随机噪声的影响.因此,为了解决不准确监督,通常考虑的是带噪学习(l e a r n i

39、n g w i t h l a b e l n o i s e)的方法.一个相对典型的场景就是在有标签噪声的情况下进行学习,其基本思想是试图修正识别出的潜在误分类样本1 9.5 强化学习强化学习(r e i n f o r c e m e n t l e a r n i n g)讨论的问题是一个智能体(a g e n t)如何在一个复杂不确定的环境(e n v i r o n m e n t)里面去极大化它能获得的奖励.通过感知所处环境的状态(s t a t e)对动作(a c t i o n)的反应(r e w a r d),来指导更好的动作,从而获得最大的收益(r e t u r n),这

40、样的学习方法就被称作强化学习.外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能.典型算法有Q-l e a r n i n g和D QN.5.1 Q-l e a r n i n g算法Q-l e a r n i n g是W a t k i n s于1 9 8 9年提出的一种无模型的强化学习技术,但是其与深度学习的结合是在2 0 1 3年的D e e p M i n d发布的“P l a y i n g A t a r i w i t h D e e p R e i n f o r c e m e n t L e a r n i n g”论文中才实现的.它能够比

41、较可用操作的预期效用(对于给定状态)而不需要环境模型,同时可以处理随机过渡和奖励问题而无需进行调整.Q-l e a r n i n g的思想是:设所处环境的状态为S,动作为A,Q(s,a)在某一时刻的状态s(sS)下,采取某个动作a(aA)后获得的收益期望2 0.环境会对A g e n tA的动作进行分析,来得到相应的回报R e w a r d r,因此,算法的目的是构建一张s t a t e与a c t i o n的存储Q值的Q-t a b l e,然后根据Q值选取相应的动作来获得最大收益.5.2 D Q N算法D QN即深度Q网络,是一种将Q-l e a r n i n g通过神经网络近似

42、值函数的一种方法.D QN属于深度强化学习(d e e p r e i n f o r c e m e n t l e a r n i n g,D R L)的一种,它是深度学习与Q-l e a r n i n g的结合体,总体思路类似于Q-l e a r n i n g的思路,但对于给定状态选取哪个动作所能得到的Q值,是由一个深度神经网络来计算的.6 深度学习1 9 8 1年,D a v i d H u b e l和T o r s t e n W i e s e l,这两位诺贝尔医学奖获得者,提出了一种关于视觉系统的信息处理机制:在瞳孔发现物体边缘指向某个方向时,某种神经元细胞会变得活跃.他们

43、将这种细胞命名为“方向选择性细胞”2 1.人脑是一种复杂的神经系统,它由约1 0 0 0亿个神经元和数万亿个突触组成.神经元之间通过突触进行信息传递和信号处理,形成了人脑高效的信息处理和学习能力.前额叶对大脑整体有组织性、指导性和调节性的影响,是大脑的中枢(内存),负责工作记忆、信息整合、判断、分析、思考、操作、决策等复杂高级的认知活动.顶叶是感觉中枢,处理疼痛和触觉感知,也参与认知.枕叶为视觉皮质中枢,主要负责处理视觉、语言、动作感觉及抽象概念等信息.视觉信息从光感受器到大脑枕叶视中枢的传导途径称为视路.人的视觉系统通过分级的形式处理信息,其中,低层特征可以组合成高层特征.低层特征表现得比较

44、具体,但语义表现效果较模糊,而越到高层,其特征则越抽象,但表现语义或者意图表达得就越清楚,分类效果就越好.人工神经网络(a r t i f i c i a l n e u r a l n e t w o r k,ANN)是受人脑神经系统启发而发展起来的一种计算模型,它模拟了神经元之间的信息传递和信号处理过程.神经网络通过训练学习输入和输出之间的关8第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3系,从而实现对未知数据的预测和分类.神经网络也包括很多神经元,每个神经元接受输入的信号,然后乘以对应的权重,求和后输入到一个非线性函数.这些神经元相互堆积在一

45、起,并按照层进行组织.深度学习神经网络是神经网络的一种进化形式,它采用了多层网络结构,构建多个隐藏层的模型,即多隐层的人工神经网络,每层网络可以提取输入数据的不同特征,能有效刻画数据,从而实现更加准确的可视化、分类和预测.这也是加拿大多伦多大学一位在机器学习领域作出过杰出贡献的教授G e o f f r e y H i n t o n关于深度学习的观点2 2.随着计算机硬件和软件技术的进步,如G P U的广泛应用、分布式计算、大数据等,目前,深度学习神经网络方法的成果显著,如到2 0 1 6年,使用多层卷积神经网络结构,将视觉识别错误率从2 6%降低到了3%.目前,深度学习网络大致可概括为卷积

46、神经网络、循环神经网络、图神经网络、自动编码器、深度信念网和生成式对抗网络等几类模型.6.1 卷积神经网络卷积神经网络(C NN)是目前计算机视觉(c o m p u t e r v i s i o n,C V)领域中最常用的深度学习算法2 3.C NN通过输入平面上的二维像素点和R G B通道,通过卷积层、激活函数和池化层进行转化,最后通过全连接层输出分类标签.因为能够很好地识别数据之间的空间关系,所以C NN主要用于计算机视觉方面的应用,比如图像分类、视频识别、医学图像分析以及自动驾驶,在这些领域上都取得了超过人类的识别精度.6.1.1 卷积层卷积操作被定义为图像矩阵和卷积核的按位点乘;通

47、过卷积核对图像的作用,可实现对图像某些特征的提取.卷积具有两大特征:1)局部连接.每个输出通过权值(w e i g h t)和所有输入相连,在卷积层中,每个输出神经元在通道方向保持全连接,而在空间方向上只和小部分输入神经元相连;2)参数共享(p a r a m e t e r s h a r i n g).在一个模型的多个函数中使用相同的参数.6.1.2 池化层主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性.常用的两种池化操作有:1)平均池化(a v e r a g e p o o l i n g).平均池化函数将相邻矩形区域内的均值作为输出;2)最大值池化(m a

48、x p o o l i n g).最大池化函数将相邻矩形区域内的最大值作为输出.6.1.3 激活层加入非线性学习机制,提供深度神经网络的非线性建模能力.把“激活的神经元的特征”通过函数保留特征并映射出来(保留特征,去除一些数据中的冗余),这是神经网络能解决非线性问题的关键.常见的激活函数有S i g m o i d函数、R e L u函数和L e a k y R e L u函数等.6.1.4 全连接层汇总卷积层和池化层得到的图像的底层特征和信息,将最后一层卷积得到的二维特征图转化成向量,对这个向量作乘法,最终降低其维度,然后输入到S o f t m a x层中得到对应的每个类别的得分,利于分类

49、等任务.6.2 循环神经网络循环神经网络(R NN)常用来分析序列数据,适合处理和预测时间序列中间隔和延迟非常长的重要事件.R NN与C NN的主要不同是:R NN某一层输出不仅会成为下一层的输入,并且会反馈到该层,即R NN可以使用过去的信息.常见的R NN有循环神经网络和门控循环单元.6.2.1 长短期记忆网络长短期记忆网络(l o n g s h o r t t e r m m e m o r y,L S TM)用于解决一般递归神经网络中普遍存在的长9热点与前沿数据建模中的机器学习方法2 0 2 3年6月期依赖问题,使用L S TM可以有效地传递和表达长时间序列中的信息并且不会导致长时间

50、前的有用信息被忽略(遗忘)2 4.与此同时,L S TM还可以解决R NN中的梯度消失/爆炸问题.主要思想是通过门控机制,选择性地存储信息.其门控机制是利用3个门(输入、遗忘、输出)来控制.输入门控制即时状态有多少输入到长期状态;遗忘门控制继续保存多少长期状态;输出门控制长期状态作为当前的L S TM的输出.6.2.2 门控循环单元门控循环单元(g a t e r e c u r r e n t u n i t,G R U)是L S TM的变体,它较L S TM网络的结构更加简单,更容易进行训练(时间短),能够很大程度上提高训练效率,因此也是当前非常流行的一种网络.而且,G R U也可以解决R

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服