1、收稿日期:2022-10-06修回日期:2022-12-14作者简介:李海川(1997),男,山西太原人,硕士研究生。研究方向:系统工程。通信作者:阳周明(1982),男,广西桂林人,正高级工程师。研究方向:指挥控制系统、通信网络系统。*摘要:针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于 SAC算法,提出最近双经验回放 SAC 算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的 SAC 算法相比传统 SAC 算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成
2、功率。关键词:深度强化学习;SAC 算法;最近双经验池回放;无人分队行为决策中图分类号:TJ812文献标识码:ADOI:10.3969/j.issn.1002-0640.2023.06.011引用格式:李海川,阳周明,王洋,等.基于最近双经验 SAC 算法的无人分队控制研究 J.火力与指挥控制,2023,48(6):70-75.基于最近双经验 SAC 算法的无人分队控制研究李海川,阳周明*,王洋,崔新悦,王娜(北方自动控制技术研究所,太原030006)Research on the Control of Unmanned Detachment Based onthe Recent Double
3、 Empirical SAC AlgorithmLI Haichuan,YANG Zhouming*,WANG Yang,CUI Xinyue,WANG Na(North Automatic Control Technology Institute,Taiyuan 030006,China)Abstract:For the control of unmanned detachment,how to make behavioral decision-making tobetter complete tasks is a research focus of the unmanned driving
4、.Based on the SAC algorithm,the SACalgorithm model of recently double experience playback is proposed.This model mainly starts from twoaspects:one is to replace random sampling with recent empirical sampling;The second is to use doubleexperience pool instead of single experience pool.The experimenta
5、l results show that compared with thetraditional SAC algorithm,the improved SAC algorithm improves the learning efficiency and stability,reduces the policy network error,and enables the unmanned detachment to have a higher missionsuccess rate.Key words:deep reinforcement learning;soft actor-critic a
6、lgorithm(SAC algorithm);dual experiencereplay playback;unmanned squad behavior decision-makingCitation format:LI H C,YANG Z M,WANG Y,et al.Research on the control of unmanneddetachment based on the recent double empirical SAC algorithm J.Fire Control&Command Control,2023,48(6):70-75.0引言随着现代科技的飞速发展,越
7、来越多的人工智能技术被引入军事领域中解决复杂问题1。在军事作战过程中,后勤保障是很重要的一环。在补给运输的过程中,驾驶员需要高度集中并长时间行驶,对长效作战精力消耗很大。因此,无人驾驶可以减轻驾驶员负担,无人分队运输补给能避免人们主观失误,大大提升运输效率。近年来,随着深度强化学习(deep reinforcement learning,DRL)的出现,作为一文章编号:1002-0640(2023)06-0070-06Vol.48,No.6Jun,2023火 力 与 指 挥 控 制Fire Control&Command Control第 48 卷第 6 期2023 年 6 月70(总第 48
8、-)种兼顾强化学习与深度学习优点的学习方式,在游戏2、棋类3、无人驾驶4、路径规划5、行为决策6、自然语言处理7、金融交易8、云计算9等方面都有着广泛应用。本文针对 SAC 算法10中经验池以等概率采样,忽视训练过程中最近经验的重要性,单一经验池没有考虑不同条件下经验状态存在差异,造成收敛速度慢、稳定性不高的问题,在采样阶段提出最近双经验回放改进,一方面给予最近经验较大的采样权重,另一方面用两个不同的经验池分别存储计划状态分布和策略状态分布的经验,提高了经验学习速率,加快了收敛速度。改进后的 SAC 算法应用在无人分队控制方面,可以有效提高任务成功率。1深度强化学习1.1强化学习强化学习(re
9、inforcement learning,RL)通过自身与环境交互,从环境中获得奖励并根据奖励不断调整其行为以达到最优策略。通常采用马尔科夫决策过程(Markov decision process,MDP)进行建模,通过五元组(S,A,P,R,酌)来表示。在五元组中,S 为状态集,A 为一组动作,P 为状态转移概率,R 为奖励函数,酌 为阻尼系数11。强化学习算法主要有以下 3 类:Actor 法,Critic法和 Actor-Critic 法12。Actor 法直接进行学习以获得最优决策;Critic 法根据当前状态,选择期望最大的动作来学习最优策略;Actor-Critic 法分两部分,A
10、ctor 与环境交互后生成策略,Critic 评估 Actor 的行为并指导其下一步动作。1.2深度强化学习框架深度强化学习13通过学习获得最优的目标策略,利用强化学习对神经网络产生动作与环境交互的信息进行决策。深度强化学习框架如图 1 所示,主要由环境、经验回放和深度强化学习网络 3 部分组成。1.2.1环境DRL 的任务通过环境实现表征,环境由五元组中的 P 和 R 构成,即状态转移概率和奖励函数是环境的核心,其流程是当前状态由状态转移概率决定进入下一状态,由奖励函数对状态进行奖励反馈,因此,任务的实体表现即为奖励,任务分数为每一步的奖励之和。1.2.2经验回放经验回放又称为 off-po
11、licy 方法,主体训练思路是以经验池中的经验为基准,反复训练,提高样本利用率,这样做的好处是对比在线更新训练速度有明显提升。经验回放分两步进行:第 1 步是通过选择手段在经验池中存储经验或丢弃经验,第 2 步是通过采样对经验池中的经验进行选择。1.2.3深度强化学习网络深度强化学习网络由在线网络、目标网络和优化器 3 部分构成。3 部分互有联系又相互影响,其中在线网络就是执行网络,通过行为策略与环境的交互产生经验,是优化器进行函数计算的基础;目标函数主要用于对目标值的估计,通过学习获得目标策略作为算法的稳定输出,并实时更新结果;优化器就是以在线网络的经验和目标网络的更新结果为基础,计算损失函
12、数,实现网络权重的更新。1.3SAC 算法软行动者-评论家算法(soft actor-critic,SAC)是基于最大熵强化学习框架的离线强化学习算法,算法流程如图 2 所示。图 2SAC 算法网络结构图Fig.2SAC algorithm network structure diagramSAC 算法的策略要同时满足累计期望与熵的最大化,即:J(仔)=Tt=0移E(st,at)籽仔r(st,at)+琢H(仔(|st)(1)其中,琢 决定熵相对于奖励的重要性,以控制策略的随机性。H 表示策略 仔 的熵,策略 仔 的熵由下式确定图 1深度强化学习框架Fig.1Deep reinforcement
13、 learning framework李海川等:基于最近双经验 SAC 算法的无人分队控制研究711025(总第 48-)火 力 与 指 挥 控 制2023 年第 6 期例如,在第 m 次更新时(1m臆M)经验 i 的采样概率为:P(i)=孜m+1-imj=i-1移孜j+1-i,mi-1(9)其中,孜 作为超参数,决定了最近数据的重要程度。当 孜=1 时,所有经验的采样概率相等;当 孜1 时,最近数据采样概率增大。当 孜 较小时,过去经验占比下降,更容易遗忘过去经验,以提高学习速率,实现快速收敛;当 孜 较大时,过去经验占比提升,在训练过程中收敛速度下降但不容易陷入局部最优。随机经验回放依赖于
14、采样的经验服从预期,最近经验回放不再按原有经验池分布采样,最近经验的多次回放容易陷入局部最优解,对目标网络造成过拟合。因此,为校正误差,需要在更新梯度时引入重要性采样:棕i=(1N/P(i)t(10)其中,N 为经验池容量,1/N 为随机采样概率,t 为校正程度。当 t=0 时,所有经验的重要性采样都是 1。2.2最近双经验池回放由于最近单经验池训练后存在局部最优的问题,提出最近双经验池回放(recently dual replaybuffer,RDRB),其框架如图 4 所示。图 4最近双经验池回放框架Fig.4Recently dual experience pool playback f
15、ramework在经验保留环节,采用计划经验池 Dfull与策略经验池 Dpolicy共同存储经验。其中,计划经验池存储全部经验,策略经验池存储动作和目标策略一致的H(仔(|st)=-log(|st)(2)SAC 算法策略迭代主要分为策略评估与策略改进两部分。在策略评估阶段,对固定策略 仔,softQ-value 可由 Bellman backup 算子迭代计算:仔Q(st,at)=r(st,at)+Est+1pV(st+1)(3)其中,V(st)函数为:V(st)=EatQ(st,at)-log(at|st)(4)通过 Qk+1=仔Qk进行无数次迭代即可获得收敛到 仔 的 soft Q-va
16、lue 函数。在策略改进阶段,SAC算法输出与 Q 函数同概率分布的策略函数:仔new(at|st)exp(Q仔old(st,at)(5)在实际操作中,为方便处理策略,采用 KL 散度去投影新的策略:仔new=argminDKL(仔(|st)|exp(Q仔old(st,)Z仔old(st)(6)其中,Z仔old(st)是 Q 值归一化分布函数。对所有的(st,at)S伊A 满足 Q仔new(st,at)Q仔old(st,at)以保证每次更新的策略基于旧的策略。此外,SAC 算法引入重参数的技巧,在训练过程中,soft Q-value 函数的更新梯度为:赞兹JQ(兹)=兹Q兹(st,at)(Q兹
17、(st,at)-r(st,at)-酌V鬃(st+1)策略网络的更新梯度为:赞准J仔(准)=准log仔(at|st)+(atlog仔准(at|st)-atQ(st,at)准f准(沂t;st)2基于最近双经验回放的 SAC 算法2.1最近经验回放为了加快收敛速度,提高学习效率,使用最近经验回放(recently replay buffer,RRB)14采样策略代替随机采样,将最近数据的重要程度作为采样准则。相比于随机采样,最近采样中增加了最近经验的权重,在采样时最近经验更容易被选中,有效加速对策略的学习,提高了算法收敛性。最近经验回放框架如图 3 所示。(7)(8)图 3最近经验回放框架Fig.3
18、Recent experience playback framework721026(总第 48-)经验;在经验采样环节,双方都使用最近采样,按拟定比例共同采取 n 个经验,学习并更新策略网络。2.3奖励函数深度强化学习的训练过程本质上是智能体与环境交互,在交互后得到反馈并根据反馈调整动作,逐步让奖励达到最大的过程。在这个过程中,动作的学习主要是通过奖励函数引导,因此,根据不同任务设计不同的奖励函数有助于提高算法性能。本文基于无人分队是否达到目标任务点、车辆之间距离、面对突发问题处理、行车能量消耗与车辆静止惩罚 4 个方面的信息来设计奖励函数。1)任务重点是无人分队是否到达目标任务点与车辆间距
19、离,对此其对应的奖励函数如下:rdest=100,到达目标任务点0,未到达目标任务点(11)rdistance=-100,dbetween20扇墒设设设设设设缮设设设设设设(12)其中,当两车之间距离在 10 m20 m 内,符合跟车要求,奖励函数以二次方式表示;当距离过小或过大时会有碰撞或跟丢情况,因此,需要有相应的惩罚机制。2)行车过程中能量消耗与车辆静止的奖励函数设计如下:renergy=E(13)rstatic=|v(t)-vlim(t)|vlim(t)(14)其中,能量消耗的惩罚采用能量消耗值 E,但是若只有能量消耗,会出现车辆静止的错误情况。为防止这类问题,需要设置奖励让行驶有所收
20、益,其中,v(t)是当前速度;vlim(t)为限制速度,此奖励函数可以让车辆更符合设定的限制速度。3)面对突发问题时,车辆开始减速,若为障碍物则以运动停止作为处理方式,若为上坡则减速到限定速度作为处理方式,采用另一个独立经验池,其奖励函数设计如下:rdest=-vnow(t)-vlast(t)驻t,减速期间100,遇障碍物运动停止100,遇上坡到达限定速度扇墒设设设设设设设缮设设设设设设设(15)其中,运动停止说明合理处理突发问题,在减速期间以加速度为奖励函数,vnow(t)是当前状态速度,vlast(t)为上一时刻速度,减速加速度越快奖励越高。2.4算法流程基于最近双经验回放的 SAC 算法
21、如算法 1 所示。其输入主要包括各类网络参数、训练步数、经验池容量以及采样经验数量,输出以目标策略为主。算法首先获得初始状态,在第 1 行进入环境。在算法 35 行,根据当前策略和噪声叠加,选择动作,获得下一状态和奖励。在算法第 68 行,将经验加入到经验池中,其中,经验池 Dfull存储所有的经验,经验池 Dpolicy存储符合执行策略的经验。在算法第 1012 行,根据采样比例进行采样,根据最近经验进行经验选择,并计算重要性采样以用于后续梯度更新。在算法第 13 行进行经验过滤,与当前策略相距过大的经验将被滤去。在算法第 1416 行计算累积梯度。在算法第 1720 行更新网络参数。3实验
22、及结果本次实验环境基于 OpenAI Gym,通过设置不同奖励使无人分队达到终点完成任务,分别使用传统SAC 算法、SAC 算法结合最近经验回放和最近双经验回放进行比较。3.1实验环境在 OpenAI Gym 中搭建环境如下页图 5 所示,其中,两辆无人车作为分队进行运输任务,运输路算法 1:基于最近双经验回放的 SAC 算法输入:随机初始化参数向量 V-Critic 网络 鬃,目标网络参数鬃軍,价值网络参数 兹,策略网络参数 准,神经网络学习率 酌,训练步数 T,经验池容量 N,批量采样经验数 n输出:目标策略1:获得初始化状态 s02:for step_t in T:3:观察环境获得状态
23、st4:根据当前策略选择动作 琢t=准(琢t|st)5:执行动作 琢t,得到下一个状态 s(t+1)和奖励 rt6:将经验(st,琢t,rt,s(t+1)加入最近经验池 Dfull中7:if action=policy:8:将经验(st,琢t,rt,s(t+1)加入最近经验池 Dpolicy中9:for i in n:10:根据采样比例选择采样经验池11:根据最近经验回放选择经验 eiP(i)=孜m+1-i/m孜m+1-i12:计算重要性采样:棕i=1/(N pi)t(t 为校正程度)13:if 棕i1/cmax&棕icmax:14:更新累计梯度:驻鬃饮驻鬃+棕i 啄i鬃JV(鬃)15:驻兹饮
24、驻兹+棕i 啄i兹JQ(兹)16:驻准饮驻准+棕i 啄i准J(准)17:更新参数:鬃饮鬃-姿V驻鬃18:兹i饮兹i-姿Q驻兹19:准饮准-姿驻准20:鬃軍饮酌鬃+(1-酌)鬃軍李海川等:基于最近双经验 SAC 算法的无人分队控制研究731027(总第 48-)火 力 与 指 挥 控 制2023 年第 6 期线总长 10 km,在运输开始后 5 km6 km 处有一段长为 1 km 倾斜度为 8%(水平前进 100 m,垂直高度上升 8 m)的斜坡,其余均为平地;无人车初始速度为 0,正常行驶速度为 60 km/h,上坡期间行驶速度为 20 km/h,在运输路线的平地部分固定放置 4 个障碍物作
25、为突发情况。当无人车未遇到突发情况时,只考虑跟车距离与能量消耗;当遇到障碍物时,让两辆无人车均减速至停止,在静止 5 s 后再继续运输任务,到达终点认为任务成功。3.2参数设置实验中,除 SAC 算法没有最近经验重要程度外,其余的超参数设置均相同,如表 1 所示。表 1超参数设置Table 1Hyperparameter settings3.3实验结果针对固定位置的突发问题,在训练后分别从无人分队任务成功率、回合平均奖励、策略网络误差几方面进行比较,训练后的结果如图 6 所示。其中,SAC+RRB 表示 SAC 算法 结 合 最 近 经 验 回 放,SAC+RDRB 表示 SAC 算法结合最近
26、双经验回放。由图 6(a)可以看出,突发情况在固定位置下训练时,三者任务成功率最终都在 90%左右,但是在第 100 回合 200 回合时,SAC+RDRB 算法的任务成功率比其他两者提升更快。图 6(b)表示训练过程中的回合平均奖励,在 SAC+RDRB 算法下,奖励增长更快且比其他两者更加稳定,最终奖励收敛后也比其他两者更多。图 6(c)表示策略网络误差,SAC+RDRB 算法从 30 开始收敛至 0,SAC+RRB 算法从 70开始收敛至 20,而 SAC 算法从 200 开始收敛至 30。根据图 6 的结果,认为无人分队在 SAC 算法结合最近双经验回放情况下能有效区分特殊情况,针对不
27、同条件采用不同经验池进行学习,训练效果较图 5固定障碍运输环境Fig.5Fixed barrier transport environment超参数超参数取值回合数 R103每回合最大步数 T5 000学习率 酌0.001计划经验池容量 Nfull106策略经验池容量 Npolicy104最近经验重要程度 孜0.99优化批量 b512(a)任务成功率(c)策略网络误差(b)回合平均奖励图 6固定位置突发状况训练结果图Fig.6Chart of Fixed position emergency training results741028(总第 48-)果,结果如图 8 所示。由图 8(a)可以
28、看出,在随机情况下,SAC 算法与 SAC+RRB 算法明显成功率降低,分别在 77%和 80%。而 SAC+RDRB 算法成功率能达到 85%,相对于传统 SAC 算法有较为明显的提升。在图 8(b)中,前 100 回合三者的训练效果几乎相同,但是 100 回合后 SAC+RDRB 算法与 SAC+RRB 算法提升较为明显,效果比 SAC 算法好。根据图 8 的结果,认为无人分队在 SAC 算法结合最近双经验回放的情况下,训练效果虽然不如固定位置突发情况条件下好,但是相较于另外两种算法,SAC+RDRB 仍有效提高了无人分队的任务完成率,且回合平均奖励更高。4结论本文基于无人分队的任务行为决
29、策,在 SAC 算法的基础上,构建了最近双经验回放模型。针对随机采样存在收敛速度慢的问题,提出最近经验采样,以加快学习速度;针对单经验池策略网络误差较大的问题,构建双经验池回放,以提高算法稳定性。实验通过对随机单经验池回放、最近单经验池回放和最近双经验池回放三组行为决策的结果进行比较,验证了模型的有效性,提升了无人分队的任务成功率。目前仿真任务环境除中途的爬坡以外其余均为直线,出现的额外突发问题只有停止一种情况,缺少其余突发情况与不同方向对任务带来的影响与决策方式。未来可扩展多种行驶路线,同时增加天气、极端地形等因素对行为决策的影响,使仿真环境更符合现实环境。参考文献:1 张梦钰,豆亚杰,陈子
30、夷,等.深度强化学习及其在军事领域中的应用综述 J/OL.系统工程与电子技术,2022:1-172022-06-06.http:/ M Y,DOU Y J,CHEN Z Y,et al.Deep reinforce-ment learning and its applications in military field J/OL.Systems Engineering And Electronics,2022:1-172022-06-06.http:/ J,GORDILLO C,TOLLMAR K,et al.Aug-menting automated game testing with de
31、ep reinforcementlearning C/IEEE Conference on Games(CoG),2020:600-603.3SILVER D,SCHRITTWIESER J,SIMONYAN K,et al.Mastering the game of go without human knowledgeJ.Nature,2017,550(7676):354-359.4 黄志清,曲志伟,张吉,等.基于深度强化学习的端到端无人驾驶决策 J.电子学报,2020,48(9):1711-1719.HUANG Z Q,QU Z W,ZHANG J,et al.End-to-end au-
32、tonomous driving decision-making based on deep rein-好,能有效提高收敛速度,降低策略网络误差。为更符合实际,新训练环境在运输道路上除上坡路段外随机生成 4 个障碍物,其余条件不变,如图 7 所示。随机突发情况的环境下,再次测试模型训练效图 7随机障碍运输环境Fig.7Random obstacle transportation environment(b)回合平均奖励(a)任务成功率图 8随机位置突发状况训练结果图Fig.8Chart of Random position emergency training results(下转第 83 页
33、)李海川等:基于最近双经验 SAC 算法的无人分队控制研究751029(总第 48-)forcement learning J.Acta Electronica Sinica,2020,48(9):1711-1719.5 张永梅,赵家瑞,吴爱燕.好奇心驱动的深度强化学习机器人路径规划算法 J.科学技术与工程,2022,22(25):11075-11083.ZHANG Y M,ZHAO J R,WU A Y.Robot path planningalgorithm based on curiosity-driven deep reinforcementlearning J.Science Tec
34、hnology and Engineering,2022,22(25):11075-11083.6 XU H,YANG G,YU F,et al.End-to-end learning of driv-ing models from large-scale video datasets C/IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017:3530-3538.7LI Z,XIN J,SHANG L,et al.Paraphrase generation withdeep reinforcement
35、 learning D.Empirical Methods inNatural Language Processing,2018:3865-3878.8 DENG Y,BAO F,KONG Y,et al.Deep direct reinforcementlearning for financial signal representation and trading J.IEEE Transactions on Neural Networks and Learning Sys-tems,2017,28(3):653-664.9 LIU N,LI Z,XU Z,et al.A hierarchi
36、cal framework of cloudresource allocation and power management using deep re-inforcement learning C/IEEE,2017:372-382.10HAARNOJA T,ZHOU A,ABBEEL P,et al.Soft ac-tor-critic:off-policy maximum entropy deep reinforce-ment learning with a stochastic actorJ.arXiv.PreprintarXiv:1801.01290,2018.11 代珊珊,刘全.基
37、于动作约束深度强化学习的安全自动驾驶方法 J.计算机科学,2021,48(9):235-243.DAI S S,LIU Q.Action constrained deep reinforcementlearning based safe automatic driving method J.Comput-er Science,2021,48(9):235-243.12 刘庆强,刘鹏云.基于优先级经验回放的 SAC 强化学习算法 J.吉林大学学报(信息科学版),2021,39(2):192-199.LIU Q Q,LIU P Y.Soft actor critic reinforcement l
38、earningalgorithm based on prioritized experience replay J.Jour-nal of Jilin University(Information Science Edition),2021,39(2):192-199.13 刘颖.深度强化学习中的经验回放研究 D.南京:东南大学,2021.LIU Y.Research on experience replay in deep reinforce-ment learning D.Nanjing:Southeast University,2021.14 CHE W,KEITH R.Boosting
39、 soft actor-critic:emphasizingrecent experience without forgetting the pastJ.arXivPreprint arXiv:1906.04009,2019.review of driving sim ulator validation studiesJ.SafetyScience,2019,117:138-151.2 谢云开,孟祥辉,张燕燕,等.两栖装甲车驾驶模拟器视景系统设计与实现J.软件导刊,2021,20(10):186-191.XIE Y K,MENG X H,ZHANG Y Y,et al.Design and i
40、m-plementation of the visual system of amphibious armoredvehicle driving simulator J.Software Guide,2021,20(10):186-191.3 DEBATTISTA K,BASHFORD-ROGERS T,HARVEY C,et al.Subjective evaluation of high-fidelity virtual environ-ments for driving simulations J.IEEE Trans Hum MachSyst,2018(48):30-40.4 BJOR
41、N B,FREDRIK B,OLLE E.Driver behavior in mixedand virtual reality-a comparative studyJ.TransportationResearch Part F:Traffic Psychology and Behaviour,2017,9:81-95.5 段春光.汽车性能模拟器逼真度关键问题研究D.长春:吉林大学,2017.DUAN C G.Research on key problems of the fidelity of au-tomobiles performance simulatorsD.Changchun:J
42、ilin U-niversity,2017.6 余志生.汽车理论 M.北京:机械工业出版社,2008:205-211.YU Z S.Automobile theory M.Beijing:China MachinePress,2008:205-211.7 中国机械工业联合会.机械振动 道路路面谱测量数据报告:GB/T 70312005 S.北京:中国国家标准化管理委员会,2005.China Machinery Industry Federation.Mechanical vibra-tion-road surface profiles-reporting of measured data:G
43、B/T70312005 S.Beijing:Standardization Administration ofthe Peoples Republic of China,2005.8 张永林.车辆道路数值模拟与仿真研究 D.武汉:华中科技大学,2010.ZHANG Y L.Study on numerical modeling and computersimulation of stochastic road of vehiclesD.Wuhan:Huazhong University of Science&Technology,2010.9 王汉平,张哲,李倩.路面时域模拟的谐波叠加组分中相
44、位角的相干性研究J.北京理工大学学报,2019,39(10):1034-1038.WANG H P,ZHANG Z,LI Q.The coherence study of phaseangle of harmonic superposition components in time domainsimulation of road roughness J.Transactions of Beijing In-stitute of Technology,2019,39(10):1034-1038.10 杨宇.飞行模拟器动感模拟关键技术研究 D.哈尔滨:哈尔滨工业大学,2010.YANG Y.Research on key technology of dynamic simula-tion for flight simulators D.Harbin:Harbin Institute ofTechnology,2010.(上接第 75 页)刘远等:面向车辆驾驶模拟器的路面谱仿真831037