收藏 分销(赏)

关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计.pdf

上传人:自信****多点 文档编号:3634298 上传时间:2024-07-11 格式:PDF 页数:15 大小:628.78KB
下载 相关 举报
关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计.pdf_第1页
第1页 / 共15页
关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计.pdf_第2页
第2页 / 共15页
关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Advances in Applied Mathematics 应用数学进展应用数学进展,2024,13(2),569-583 Published Online February 2024 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2024.132055 文章引用文章引用:杨金圆,胡良剑.关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计J.应用数学进展,2024,13(2):569-583.DOI:10.12677/aam.2024.132055 关于相关数据流的随机梯度哈密尔顿蒙特卡罗

2、关于相关数据流的随机梯度哈密尔顿蒙特卡罗算法的非渐近估计算法的非渐近估计 杨金圆杨金圆,胡良剑胡良剑*东华大学理学院,上海 收稿日期:2024年1月26日;录用日期:2024年2月21日;发布日期:2024年2月28日 摘摘 要要 近年来,基于朗之万蒙特卡罗方法的随机梯度下降算法得到了广泛应用。这些算法通过在梯度的估计中近年来,基于朗之万蒙特卡罗方法的随机梯度下降算法得到了广泛应用。这些算法通过在梯度的估计中注入适当的高斯噪声以实现在非凸优化问题中的全局收敛。随机梯度哈密尔顿蒙特卡罗注入适当的高斯噪声以实现在非凸优化问题中的全局收敛。随机梯度哈密尔顿蒙特卡罗(SGHMC)是随机是随机梯度下降带

3、有动量的一种变体,通常的研究以样本数据相互独立的假设为前提来分析梯度下降带有动量的一种变体,通常的研究以样本数据相互独立的假设为前提来分析SGHMC算法的收敛算法的收敛性,然而实际中的样本数据往往存在相关性。本文在数据流具有相关性性,然而实际中的样本数据往往存在相关性。本文在数据流具有相关性(满足一定的条件混合特性满足一定的条件混合特性)的条的条件下,给出了件下,给出了SGHMC算法的非渐进估计,建立了全局算法的非渐进估计,建立了全局Lipschtiz条件下条件下SGHMC算法的收敛性定理,得到算法的收敛性定理,得到了迭代分布与目标分布之间了迭代分布与目标分布之间Wasserstein距离的上

4、界距离的上界。关键词关键词 随机梯度哈密尔顿蒙特卡罗,非渐进估计,随机梯度哈密尔顿蒙特卡罗,非渐进估计,非凸优化,非凸优化,相关数据流相关数据流 Non-Asymptotic Estimates for Stochastic Gradient Hamiltonian Monte Carlo Algorithm with Dependent Data Streams Jinyuan Yang,Liangjian Hu*College of Science,Donghua University,Shanghai Received:Jan.26th,2024;accepted:Feb.21st,20

5、24;published:Feb.28th,2024 Abstract In recent years,stochastic gradient descent algorithms based on the Langevin Monte Carlo method have been widely applied,which achieve global convergence in non-convex optimization problems *通讯作者。杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 570 应用数学进展 by injecting appropr

6、iate Gaussian noise into the gradient estimates.Stochastic gradient Hamilto-nian Monte Carlo(SGHMC)is a variant of stochastic gradient descent with momentum.Usually,studies analyze the convergence of algorithm based on the assumption that the sample data are i.i.d.However,in practice,sample data may

7、 be dependent.This paper provides non-asymptotic es-timates for SGHMC algorithm under the condition that the data streams are dependent(satisfying a certain conditional mixing property),establishes a convergence theorem for SGHMC algorithm un-der the global Lipschitz condition,and obtains an upper b

8、ound of the Wasserstein distance between the law of algorithms iterates and the target distribution.Keywords Stochastic Gradient Hamiltonian Monte Carlo,Non-Asymptotic Estimates,Non-Convex Optimization,Dependent Data Streams Copyright 2024 by author(s)and Hans Publishers Inc.This work is licensed un

9、der the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 随机梯度下降算法在解决非凸优化问题中有着广泛应用。考虑一个随机优化问题:最小化()():,UuX=其中 U 可能是非凸损失函数,d,X 是随机数据。我们希望得到的估计量使超额期望风险()()infdUU达到最小。Raginsky 等1阐述了最小化超额期望风险与从一个集中在损失函数 U 的 极小值附近的目标分布()()()expdU 中采样之间的密切联系,其中为

10、逆温度系数。当足够大时,目标分布集中在损失函数 U 的极小值附近2,且在适当的假设下,目标分布是过阻尼郎之万随机微分方程()1dd2dttthtB=+(1)的唯一平稳分布3,其中:hU=,0ttB为 d 维布朗运动。在非凸情形下损失函数 U 可能具有多个极小值,为算法收敛带来挑战。为了从目标分布中采样,基于朗之万蒙特卡罗(Langevin Monte Carlo,LMC)方法的随机梯度下降(Stochastic Gradient Descent,SGD)算法备受关注,这些算法通过在梯度的估计中注入噪声保证全局收敛。考虑使用欧拉离散化方法近似模拟方程(1),同时由于精确梯度 h 难以获得,故使用

11、其以观测数据驱动的无偏估计代替,即得到随机梯度郎之万动力学(Stochastic Gradient Langevin Dynamics,SGLD)算法4()1111:,2nnnnnHX+=+其中0为步长,:dmdH为满足()(),nHXh=的可测函数,nnX为适应于给定流 nn的m值数据序列,nn为独立的标准 d 维高斯噪声。另一方面,本文所考虑的随机梯度哈密尔顿蒙特卡罗(Stochastic Gradient Hamiltonian Monte Carlo,SGHMC)算法5基于欠阻尼朗之万随机微分方程 Open AccessOpen Access杨金圆,胡良剑 DOI:10.12677/a

12、am.2024.132055 571 应用数学进展 ()1ddd2dddttttttVV thtBV t=+=(2)其中 0tt,0ttV分别为位置和动量过程,为摩擦系数。在梯度的适当假设下,马尔可夫过程()0,tttV具有唯一平稳分布6()()21d,dexpd d2vvUv+与 SGLD 算法类似,精确梯度 h 难以获得,但可以有效获得其无偏估计,即得到 SGHMC 算法()11111,2nnnnnnnnnVVVHXV+=+=+(3)Eberle等7证明了在某些假设条件下欠阻尼随机微分方程在Wasserstein 距离下收敛到其平稳分布的速度比过阻尼情形快,许多实验也印证了 SGHMC 算

13、法表现出比 SGLD 算法更快的收敛速度5。近年来,损失函数 U 为凸情形下的近似采样算法的收敛速度得到了深入研究,放宽凸假设是一个更具挑战的问题。对于 U 非凸的情形,通常考虑两种路径:(i)考虑耗散条件1 8;(ii)假设损失函数 U在无穷远处具有凸性9。此外,大多数研究假设样本数据序列相互独立,然而事实上数据可能相关而非独立。如金融市场价格分析问题中,资产收益在适当的时间尺度上保持平稳,但独立性失效10。在下达交易订单以最大化投资组合效益、最小化交易成本等金融问题中,随机梯度下降算法往往在相关数据流的基础上进行8。Chau 等8在相关数据流(样本数据满足条件 L 混合特性)假设下研究了非

14、凸情形下SGLD 算法的收敛性。对于 SGHMC 算法,在观测数据独立同分布的假设下,Chau 等6和 Gao 等11研究了 SGHMC 算法在全局 Lipschitz 条件下的收敛性。本文将考虑的数据样本nnX是相关的,在数据序列满足条件 L 混合特性的条件下,得到 SGHMC 算法的非渐近估计,并由此得到 SGHMC 算法收敛到其目标分布的速度。2.符号与假设符号与假设 2.1.符号符号 设(),P 为一个概率空间。记随机变量 X 的期望为X,用pL表示 p 阶矩可积的实值随机变量的空间。给定整数1d,记d上 Borel代数为()d,随机变量 X 在()d上的分布用()X表示。记内积为,,

15、相应的范数用表示。对于+r,用Br表示中心为 0,半径为 r 的闭球。可测空间()(),dd上的概率测度的集合记为()d。对(),d,用(),表示()dd上的概率测度的集合,其边际分布分别为,。Wasserstein 距离定义为()()()()1 222,:infd,.dddW =2.2.假设假设 假设假设 2.1 损失函数 U 取非负值,即()0U。假设假设 2.2 0,01ppvL。假设假设 2.3 设,nn为代表过去信息的给定流,且0,=,():=nn。设*,nn为一 个递减的代数族,使得对所有n,n和*n相互独立。过程nnX关于*,nnn 是条件 L 混合的,且满足对任意d和1n,杨金

16、圆,胡良剑 DOI:10.12677/aam.2024.132055 572 应用数学进展 ()(),.nHXh=(4)假设假设 2.4 存在正常数1L,2L,使得对所有,d 和,mx x,有()12(,),.HxHxLL xx+(5)假设假设 2.5 存在正常数 a,b 使得对所有d和mx,()2,.Hxab 注注 2.6 由假设 2.4,得到以下性质:(i)对所有,dx,()12*,HxLL xH+(6)其中()*:0,0HH=。(ii)对所有d,()10hLh+(7)其中()0:0hh=。3.主要结果主要结果 3.1.条件条件 L 混合混合 Gerencsr 12介绍了 L 混合过程,L

17、 混合表示随机序列中相邻元素间相关性快速减小。Chau 等13在随机梯度方法的背景下引入了条件 L 混合的概念,条件 L 混合表示在给定一些信息或条件下序列的混 合性质仍然成立。考虑概率空间(),,具有离散时间流 nn和一个递减的域序列*nn,使得对所有n,n和*n相互独立。当1r 时,若1sup,设ttW+为rL有界,且设()().rrMWWa s+。假设对t+,00.tWa s=。设:0,fT 为()0,T可测,且有20 d Ttft,则存在一个常数()Cr使得()()()()1 2120000,supd,.d.rsTrtttrrsTfW tCrftMWWa s+这里可以取()()11 2

18、11 22rCrr=。引理引理 3.3 若假设 2.4 成立,则对每个j,(),BjtHWt+满足()()()()()()12*2,2.rrrrMHWLL MWHjHWLW+引理引理 3.4 若假设 2.4 成立,且设j。令()0ssZ为Bj值随机变量族,满足:dZ+是()0+可测的。对t+,定义过程(),tttYH Z W=,则()()()()12*2,2.rrrrMYLL MWHjYLW+3.2.收敛定理收敛定理 首先定义 3max21142min 1,224KKKKK=其中常数 K1,K2,K3将在引理 4.2 的证明中给出,常数1K和 K4将在引理 4.3 的证明中给出,参数在(9)中

19、引入。下面给出 SGHMC 算法到目标分布的收敛性的主要结果。定理定理 3.5 若假设 2.12.5 成立且max0,使得()()41 21 42123,eCnnnWVCCC+其中 C1,C2依赖于,d,L1,L2和数据流()nnX,具体形式分别在定理 4.6 和定理 4.8 的证明中给出,C3,C4依赖于,d,L1,具体形式在定理 3.5 的证明中给出。本文在数据流存在相关性的假设下给出了 SGHMC 算法的非渐近估计,阐明了 SGHMC 算法在有限迭代次数 n 下的性能。定理 3.5 表明算法的误差在迭代次数 n 上一致有界且选择足够小的步长0可以使误差达到任意小,从而保证了算法的收敛性在

20、相关数据流情形下依然成立。与独立数据流的情形相比,本文在定理证明过程中采用与文献6不同的证明路线。本文将 SGHMC 算法与依赖于条件 L 混合的辅助过程进行比较,得到相关数据流情形下二者之间的 Wasserstein 距离。此外,本文在算法的误差估计中得到不同的系数表达式,条件 L 混合特性为这些系数的有界性提供了保证。4.证明证明 4.1.辅助过程辅助过程 证明主要结果的中心思想是引入合适的Lyapunov函数及SGHMC算法的连续时间插值过程等辅助过程,该连续时间插值过程在离散时间下的分布与SGHMC算法相同。不同于SGLD算法中经典的Lyapunov函数()()221=+p,本文使用

21、Eberle 7定义的 Lyapunov 函数:()()()222211,4vUvv=+(9)其中(0,1 4,该函数依赖于目标函数()U。杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 574 应用数学进展 下面定义(),ttV的缩放过程()(),:,ttttZV=,()()1dd2dddttttttZZhtBZt=+=(10)其中:,0ttBBt=。记 0ttB自然流为 0tt,且 0tt与()00,v 相互独立,则0ttB自然流记为0tt且:tt=,0tt也与()00,v 相互独立。此外,记()0:tt=。然后定义 SGHMC 算法(3)的连续时间插值过程:()

22、()11d,d2dddtttttttVVHXtBVt+=+=(11)注意到,插值过程(11)与 SGHMC 算法在格点上具有相同的分布,即()(),nnnnVV=。此外,考虑一个初值条件为,s u vsu=和,s u vsVv=连续时间过程(),x u vs u vttZ:()(),1,dd2ddds u vs u vs u vtttts u vs u vttZZhtBZt=+=(12)定义定义 4.1 给定n且对:1T=,定义过程,nTnTnTnTnTVnTVnnttttZZ=(13)直观看来,过程(),nnttZtnT是一个开始于时间nT且初值为(),nTnTV的欠阻尼 Langevin

23、过程。最后,对t+定义一个含样本数据nnX信息流和布朗运动 0ttB随机性的连续时间流0tt:*:,:.tttt =4.2.引理准备引理准备 引理引理 4.2 若假设 2.12.5 成立。则对0max,()()11211202110sup:8 12sup:4 12kkkvkCCVCC=其中()()()21110:,d,d4=+dcCvvAd。证明证明 设对0,1,k=,()()()()222211,4kkkkkkkVL kUVV=+(14)类似文献15中引理 3.2 的证明,由(3)和注 2.6 的(6)得到()()()22121,222kkkkkkL kL khVVdM+(15)其中 222

24、2220111124442222kkkhLLLCMV+=(16)杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 575 应用数学进展 且2112LL=,()22122*44CLXH=+。注意到对01 4,由假设 2.1,()()()222,max121284,vv (17)由(14)中()L k的定义及不等式()max,2+a bab,得到()()()222111212168kkL kV+(18)因此,由和,得到()12kMK L kK+其中()()222111201122222444max,11221212168LLLhCKK +=+由参考文献15中的引理 B.5,

25、选择()211 0min 1 4,22=+aLL h,可得到对所有dx,有()()222,24cAhU+(19)其中()01 0222cAbuL h=+。故将(19)代入(15),得到()()()()()3222112121,422kkckkkL kL kUAVVdK L kK +(20)又01 4时,由(14)得到()()2221,422kkkkkL kUVV+(21)则对32120min,2KKK,由(20)和(21),得到()()()33112240L kL kKLK+(22)其中()13:cKAd=+。结合(17),最终得证。引理引理 4.3 设max0,且假设 2.12.5 成立,则

26、有()()22004sup,kkkDVv+其中()2Dd=为与无关的常数。证明证明 首先,定义()11,kkkkkVVHX+=+,()2111,kkkkkVHX+=+。类似参考文献15引理 3.4 和文献6引理 5.5 的证明,得到()()()()()111212111,1,2kkkkkkckkkkkkkVhHXAhHXN+(23)杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 576 应用数学进展 其中()()222222221121*2112111112224442112,2,22kkkkkkkkkLNVLL XH+=+=+(24)下面求(24)中第一式的上界,由

27、(17)和不等式()max,2a bab+,有 12kkNKK+(25)其中()()()()222112221221*2122444max,22111212168kLLKKL XH +=+将(25)代入(23),对102K,整理得到 11kkkK+(26)其中,()()()()1112212:121:,1,2kckkkkkkkkkkKAVhHXhHXK +=+(26)两边平方取条件期望,注意到0k=,由假设 2.3 的(4)和注 2.6,得到()()()()()()21122222112442222222222221222224222222222220*12312662424162661424

28、2kkkkckkkkcckkkkAdKKAdKAVLd dKLXhH +442222222212232224224413222|kkkkkkkcKccVcc +(27)其中()()()22222*22KLXH=+且()()()()()()222241231244444200*4223,62,48242721872,6cccAdcAd dcLcLXhHcK=+=+=+=对于21kk+,由注 2.6 的(6)和参考文献15引理 3.4 的证明,可得到 杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 577 应用数学进展 ()()()222122221122*6522531

29、51515kkkkkdVLLXHcc+(28)其中()()()()()221225622*2231510max,30111212816dLdccd LXH+=+将(28)代入(27),利用1,结合(17),得到()()()()()42222222111522342222444622221522222446223222kkkkkkkkkkccKccVcccccKccccK +(29)其中()()3422432max,11121212832cK=对(29)两边取期望,由于01,将时间轴划分为长度为1T=的区间。对(30)右边第一项,将比较连续插值过程的分布(),nnV与区间上由(13)定义过程的分

30、布之间的距离,二者在区间起点上具有相同初始分布。对(30)右式第二、三项的控制主要依赖于7中收缩估计的结果。定理定理 4.6 若假设 2.12.5 成立,且max0,则,()()(),1 221,nnttttWVZC 其中()1 21Cd=是有限常数,具体形式在证明中给出。证明证明 注意到由2W的定义,()()()22,1 2,1 2,2,nnnnttttttttWVZVZ+(31)首先求(31)右式第一项的上界。由过程t和,nt的定义,有,dtnnttssnTVZs 两边平方取期望,由于被积元素非负,因此 22,supdtnnuussnTnT u tVZs (32)下面求2,nttVZ 的上

31、界。对(),1tnTnT+,由(11)(13)及假设 2.4,得到()()()()(),11,1,d,d,d()ddnnttttttttnntsstssssnTnTttnnnnsk nTsk nTsssnTnTntstsVZVVVZVVVZsHXHXsHXhshhsVVVZ +()()()(),1,1d,ddttnssnTnTttnnnnsk nTsk nTsssnTnTsLsHXhshhs +由文献15引理 B.4,得到2tVtVV ,其中()2111444VvCLCCd=+。故利用1T,得到()()()()222,2,2,1222,144d6d6,d6dttnnntVsstssnTnTtt

32、nnnnsk nTsk nTsssnTnTVZVZsLsHXhshhs +应用 Grnwall 不等式,注意1T,对(),1tnTnT+,得到()()()()222,2,2,1111,12,1,46,d6dd6ttnnnntVssk nTstssnTnTtnnk nTssnTVZccLscHXhschhs+(33)其中()21exp 4c=。结合(32)和(33),且由1T,得到 杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 579 应用数学进展 ()()()()2,2222,3,111,22,1,12211,1sup6d6,d6d d4dpd6su6dnuunT

33、u ttstsnnnssk nTsssnTnTnTnTtsnnk nTssVnTnTsnssnTnTs tcLs scHXhsschhs sccLsc +()()()()()22,1,121,11sup,d6supd4dsnnsk nTssnTnTsnTk nTVnTHXhschhsc +(34)首先,求(34)右式第一项的上界。由于被积项非负,故 22,supsuddpstnnsuusnTnTnTs tnT u sss (35)然后,求(34)中第二项的上界。对任意j,引入nT可测事件:(),1:sup1nTnsnTsTjnZjj+=+(36)对(),1snTnT+,定义两个辅助随机过程:(

34、)()11,:,1,:,1.jjnTnTssnsssZZWHXWHX+=由引理 3.3,对任意固定的,随机过程sW满足()()()()12*2,2nTnTnTnTppppMWLL MXLjHWX+因此,由引理 3.4,我们可以将nT可测随机过程,ns插入随机过程sW中,即得到随机过程sW满足()()()()12*2,2nTnTnTnTppppMWLL MXHWLXj+对任意j,snT,定义随机过程:()()(),1,:,1jnTnT jnnssnT sssZWHXh+=记,nT jssWW=,显然对snT有,0nT jsnTW=。下面估计定理 3.2 中的量()pMW,()pW。注意到,,nT

35、 jsssnTWWW=(37)故由 Minkowski 不等式和(8),得到()()()()11112*2sup2pnTppsnTnTsnTinTpdiMWWLLjMXH+=+(38)且将(37)代入(8),易得()()()22nTnTnTpppWWKX=(39)应用定理 3.2,取3r=,则()310C,且由(36)、(38)和(39),得到 杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 580 应用数学进展 ()()()()()()()()()()21 2,1131 3,1112323*,11sup,dsup,d231201sup11nTinTinTisnnsn

36、T ssnTsZnTnTsnTsnnsnT ssnTsZnTnTsnTnTnTZnsnTsnTHXhsHXhsCTLL MXLXHTLj+()()2323*1nTinTnTZL MXLXH+(40)由文献15引理 3.3,有()()()()()()()221,1210,1supsup:8 12,d,d5dntcntnTnTCvvdA+=+故对(40)两边取期望,结合 Minkowski 不等式,得到()()()()()()2,12221 21 21 2123231*sup,d4001snnsnT sssnTnTsnTnTnTHXhsT L CLMLH+(41)最后,求(34)中的第三项的上界。

37、由引理 4.5 得到()()()()22,20,22d4nnk nTssnThhsLX (42)由(34)、(35)、(41)和(42),且1T,最终得到()22,2,11112sup46sduptnnuuVuunTnT u tnT u sccLs +(43)其中()()()()2221 21 21 21112323*021222400112nTnTcL CLMLHc LX=+=再次应用 Grnwall 不等式,且由1T,得到()()2,211112supexp 64nuuVnT u tc Lc+(44)故 21 2,1 21,1nuuC (45)其中()()21,111112:exp 64=

38、+VCc Lc。注意到,()Vd=且()1d=,故()1 21,1Cd=。下面求(31)右式第二项的上界。由(11)中tV的定义和(13)中,ntZ的定义,有()()()()()()()(),1,11,1d,dd,d,ddttnnnttsssssnTnTttnnssssssnTnTttnnnnsk nTsk nTsssnTnTVZVZsHXhsVZsHXHXsHXhshhs+杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 581 应用数学进展 类似地,由前面的讨论及1T,得到()()()()()()222,2,11222,1222,2,12d6,d6,d6d2d6dt

39、tnnnttssssssnTnTttnnnnsk nTsk nTsssnTnTttnnssssnTnTVZVZsHXHXsHXhshhsVZsLs+()()()()()222,1222,2,1126,d6d2d6dttnnnnsk nTsk nTsssnTnTttnnssssnTnTHXhshhsVZsLs+(46)(46)右边关于 t 是递增的,故由(44)和1T,得到()()()()222,2,2,11222,2211111212sup2supd6supd2supd6exp 64ttnnnuuuuuunTnTnT u tnT u snT u stnuuVnTnT u sVZVZsLsVZs

40、Lc Lc +应用 Grnwall 不等式,且由1T,得到()()()()2,22211111212supexp 26exp 64+nuuVnT u tVZLc Lc+故 21 2,1 21,1nuuC (47)其中()()()()2221,211111212:exp 26exp 64=+VCLc Lc,且()1 21,2Cd=。最后,由(31)、(45)和(47),得到()()(),1 221,nnttttWVZC 其中11,11,2CCC=+,且()1 21Cd=。定理定理 4.7(文献文献7推论推论 2.6)若假设 2.12.5 成立,且欠阻尼 Langevin 随机微分方程(),ttV

41、和(),ttV的分布分别开始于()000,V和()000,V,则,存在常数(),0,c C使得()()()()2200,e,ctttttWVVC 其中常数()edc=,()edC=分别由文献7定理 2.3 和推论 2.6 给出,由文献7中式(2.12)定义。定理定理 4.8 若假设 2.12.5 成立,且max0,则()()(),1 422,nnttttWZZC 其中()3 22edCd=,具体形式在证明中给出。证明证明类似文献15定理 4.2 的证明,由定理 4.7 和文献7引理 5.4,得到()()()()()()()()()()()()(),22,1,111 221 221,1,12,3

42、max 1,e1,nnttttnc t kTkTkTkTkTkTkTkkTkTkTkTkTkTWZZCVZWVZ=+杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 582 应用数学进展 其中常数由文献7定理 2.3 给出。注意(),1,1,kkkkZ初值为()()()11,kTkTV,且()(),nTnTnTnTVV=,因此由引理 4.3,得到()()()2,1,1220048,kkkknTnTDDZVV+故由引理 4.3 和定理 4.6,得到()()()()()()2,11 4212,12,21,3max 1,1enc t kTnnttttkWZZCCCC=+其中(

43、)()1 221 222,1002,2002:,2,:,2DDCvCv=+=+进一步计算,得到()()()()()()2,11 41 4212,12,222e,3max 1,11ec t nTnnttttcTWZZCCCCC+其中()()()12212,12,2:3max 1,11ecCCCCC=+,且()23 42edCd=。定理定理 3.5 的证明的证明 由定理 4.6、定理 4.7 和定理 4.8 及(30),有()()()1 21 4221200,ec tttWVCCC+注意到,对任意n,()(),nnnnVV=,故()()41 21 42123,eCnnnWVCCC+其中()300:

44、,CC=,4:2Cc=。特别地,()23edC=,()4edC=。5.结语结语 本文研究了非凸优化问题中近似采样 SGHMC 算法的非渐进估计。SGHMC 算法是随机梯度下降算法的一个变体,该算法结合了随机梯度下降算法和哈密尔顿蒙特卡罗算法的思想,一方面通过使用随机样本帮助算法逃离局部极小值从而实现算法的全局收敛,另一方面通过引入哈密尔顿动力学思想在参数空间中模拟粒子的运动从而进行高效采样。通常的研究认为样本数据是独立的,然而实际的数据往往存在相关性。本文放宽了对数据流独立性的限制,在损失函数 U 非凸的情形下,以耗散性条件放宽损失函数强凸的假设,分析了全局 Lipschitz 条件下样本数据

45、满足条件 L 混合性质时 SGHMC 算法的迭代分布与目标分布之间 Wassertein 距离的上界,得到 SGHMC 算法收敛到其目标分布的速度为1 2,这一工作将SGHMC算法的收敛结果推广到了相关数据流的情形,说明了在样本数据独立性失效的情况下SGHMC算法的收敛性仍旧成立,从而拓宽了 SGHMC 算法的应用场景。研究的关键思想是将时间轴划分为长度依赖于步长的等长区间,在此之上定义合适的辅助连续时间过程,从而将证明目标进行拆解,通过比较 SGHMC 算法与所定义的辅助过程之间的距离,并利用一个收缩估计的结论得到辅助过程与目标分布之间的距离,从而得到 SGHMC 算法的迭代分布与目标分布之

46、间的 Wasserstein 距离上界,其中条件 L混合的概念及其相关矩不等式的引入为算法迭代分布与辅助过程之间距离的有界性提供了保障。本文的研究拓宽 SGHMC 算法的应用范围限制,进一步可以在算法本身的结构上进行优化和改造,以提高算法的效率,另外还可以考虑将该算法应用于实际场景中,通过数值实验来检验算法性能。杨金圆,胡良剑 DOI:10.12677/aam.2024.132055 583 应用数学进展 参考文献参考文献 1 Raginsky,M.,Rakhlin,A.and Telgarsky,M.(2017)Non-Convex Learning via Stochastic Gradi

47、ent Langevin Dynam-ics:A Nonasymptotic Analysis.Conference on Learning Theory,65,1674-1703.2 Hwang,C.R.(1980)Laplaces Method Revisited:Weak Convergence of Probability Measures.The Annals of Proba-bility,8,1177-1182.https:/doi.org/10.1214/aop/1176994579 3 Chiang,T.S.,Hwang,C.R.and Sheu,S.J.(1987)Diff

48、usion for Global Optimization in n.SIAM Journal on Control and Optimization,25,737-753.https:/doi.org/10.1137/0325042 4 Welling,M.and Teh,Y.W.(2011)Bayesian Learning via Stochastic Gradient Langevin Dynamics.Proceedings of the 28th International Conference on Machine Learning(ICML-11),Bellevue,Washi

49、ngton,28 June 2011,681-688.5 Chen,T.,Fox,E.and Guestrin,C.(2014)Stochastic Gradient Hamiltonian Monte Carlo.International Conference on Machine Learning,Bejing,22-24 June 2014,1683-1691.6 Chau,H.N.and Rasonyi,M.(2022)Stochastic Gradient Hamiltonian Monte Carlo for Non-Convex Learning.Stochas-tic Pro

50、cesses and Their Applications,149,341-368.https:/doi.org/10.1016/j.spa.2022.04.001 7 Eberle,A.,Guillin,A.and Zimmer,R.(2019)Couplings and Quantitative Contraction Rates for Langevin Dynamics.The Annals of Probability,47,1982-2010.https:/doi.org/10.1214/18-AOP1299 8 Chau,N.H.,Moulines,.,Rsonyi,M.,Sab

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服