1、NETINFOSECURITY2024年第3期技术研究doi:10.3969/jissn.1671-1122.2024.03.010基于深度强化学习和隐私保护的群智感知动态任务分配策略傅彦铭1.2.3,陆盛林1,陈嘉元1,覃华1(1.广西大学计算机与电子信息学院,南宁530 0 0 4;2.广西高校并行分布与智能计算重点实验室,南宁530 0 0 4;3.广西智能数字服务工程技术研究中心,南宁530 0 0 4)摘要:在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其
2、简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。关键词:群智感知;深度强化学习;隐私保护;双深度Q网络;能力阈值贪婪算法中图分类号:TP309文献标志码:A文章编号:16 7
3、 1-112 2(2 0 2 4)0 3-0 449-13中文引用格式:傅彦铭,陆盛林,陈嘉元,等.基于深度强化学习和隐私保护的群智感知动态任务分配策略.信息网络安全,2 0 2 4,2 4(3):449-46 1.英文引用格式:FU Yanming,LU Shenglin,CHEN Jiayuan,et al.Dynamic Task Allocation for Crowd SensingBased on Deep Reinforcement Learning and Privacy ProtectionJJ.Netinfo Security,2024,24(3):449-461.Dyna
4、mic Task Allocation for Crowd Sensing Based on DeepReinforcement Learning and Privacy ProtectionFU Yanmingl-23,LU Shenglin,CHEN Jiayuan,QIN Hual(1.School of Computer,Electronic and Information,Guangxi University,Nanning 530000,China;2.Key Laboratoryof Parallel,Distributed and Intelligent Computing(G
5、uangxi),Nanning 530000,China;3.Guangxi Intelligent DigitalServices Research Center of Engineering Technology,Nanning 530000,China)Abstract:In mobile crowd sensing(MCS),the outcome of dynamic task allocation iscrucial for enhancing system efficiency and ensuring data quality.Most existing studies收稿日期
6、:2 0 2 4-0 1-2 9基金项目:国家自然科学基金 6 196 2 0 0 5作者简介:傅彦铭(197 6 一),男,广西,副教授,博士,CCF会员,主要研究方向为智能计算、网络安全;陆盛林(1999一),男,广东,硕士研究生,主要研究方向为群智感知、隐私保护;陈嘉元(1997 一),男,山西,硕士研究生,主要研究方向为群智感知、隐私保护;覃华(197 2 一),男,广西,教授,博士,主要研究方向为量子计算理论、近似动态规划最优化方法、数据挖掘。通信作者:陈嘉元ycq_449NETINFOSECURITY技术研究2024年第3期simplify dynamic task allocat
7、ion into a bipartite matching model,which fails to sufficientlyconsider the impact of task and worker attributes on the matching results and overlooked theprotection of worker location privacy.To address these shortcomings,this paper presents aprivacy-preserving dynamic task allocation strategy for
8、MCS based on deep reinforcementlearning and privacy protection.The strategy first employed differential privacy techniques toadd noise to worker locations,protecting their privacy.It then adapted task batch assignmentsusing deep reinforcement learning methods.Finally,it employed a greedy algorithm b
9、asedon worker task capability thresholds to compute the maximal total utility of the platformunder the optimal strategy.Experimental results on real-world datasets demonstrate that thestrategy maintains superior performance under various parameter settings while effectivelysafeguarding worker locati
10、on privacy.Key words:crowd sensing;deep reinforcement learning;privacy protection;doubledeep Q-network;capacity threshold greedy algorithm0引言近年来,随着智能移动设备的爆炸式发展,MCS已成为一种新型的感知模式 1,2。携带具有传感器的移动设备如手机、平板的人员都可以通过MCS平台参与到感知任务数据收集中。与传统的无线传感器相比,MCS收集感知任务数据具有成本低、扩展性好和移动性高等特点 3.4。因此,MCS在各领域都有广泛应用,如环境监测 3 智能交通
11、4、公共安全 5和医疗保健 6 等。MCS系统主要由任务请求者、MCS平台和移动工人3部分组成。在MCS系统中,任务分配占据着重要的地位。任务分配的目标是优化不同的指标,并将具有特定时间和地点要求的任务分派给合适的工人。这些携带移动智能设备的工人必须在任务截止时间前移动到指定的传感区域采集数据,并将数据上传至平台,以换取相应的报酬。在MCS系统中,以平台效用为优化目标的任务分配问题已经得到了广泛研究 7-9,但现有研究主要集中在静态任务分配策略,即假设平台可以事先获得所有任务与工人的相关信息,且未考虑工人的动态性 10,1。然而,现实应用场景中,任务和工人的状态是不断变化的,他们会动态地加入和
12、退出系统,使得静态分配算法不再适用。鉴于此,一些研究人员开始关注动态任务分配策略,根据任务分配的等待时间不同,将其划分为立即分配策略 12-14和批量分配策略 15-17。前者追求尽可能快地提供分配决策,后者则等待一段合理的时间后再进行任务分配。在实际应用中,实时分配策略的效用较低、成本较高,多数情况下采用批量分配策略。通过批量划分任务来实现任务的动态分配,不仅可以提升系统效用,还能降低计算成本。因此,如何确定合适的批量大小或如何实时调整批量大小,显著提高平台总效用,成为一个呕待解决的问题。在对动态任务分配的研究中,通常将动态任务分配问题简化为二分匹配模型,且只注重任务分配的性能,忽略了工人任
13、务自身属性对匹配结果的影响。例如,工人能力无法满足任务的最低能力需求,导致任务匹配失败等问题。同时,在工人与平台中的任务进行匹配时,通常会泄露工人的位置信息。在现有的动态任务分配研究中,一般策略倾向于采用固定批量分配方法,该方法忽略了任务和工人的动态性,可能导致分配效率不佳。此外,一些研究尝试直接应用强化学习算法解决任务分配问题,但经常受限于庞大的状态和动作空间,限制了模型在实际应用中的执行效率。为了解决现有动态任务分配策略在性能优化与工人位置隐私保护方面的不足,本文提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略DDQNAT策略。该策略将动态任务分配问题分为批次划分和批匹配两个阶
14、段进行求解。在批次划分阶段,DDQNAT策略采用马尔可夫决策过程模型形式化任务的时间序列特性,并利用该模型捕捉任务到达和工人动态性的不确定情况,通过智能体与环境的交互不断自主450NETINFOSECURITY2024年第3期技术研究学习优化,获得最优的批量划分策略。在求解期间,本文针对特定问题设置了特定的状态空间及优化奖励函数来提高模型性能。在批匹配阶段,DDQNAT策略充分考虑每批工人和任务的自身属性,并在最优批量划分策略下进行匹配,从而得到最优平台总效用。同时,在工人的真实位置添加服从平面拉普拉斯分布的随机噪声,得到干扰位置,并将其上传到平台,进行后续任务分配。最后利用真实数据集并设置不
15、同的参数进行实验,同时与现有方法进行对比,验证本文策略的有效性和性能。1相关工作现有的任务分配主要分为静态任务分配和动态任务分配两类。WANG8等人研究了单个任务感知质量,引人最小感知质量阈值来定义任务分配问题,以最大化系统效用。WUI9等人在边缘计算环境下研究了多目标优化问题,提出一种加权多目标粒子群组合算法,求解最大化平台和工人效用。LI10等人针对具有时间约束的多任务分配问题提出两种进化算法,旨在最大化平台效用,但该算法没有考虑现实中任务和工人的动态性。动态任务分配分为立即分配和批量分配两种。TAOII等人考虑了工人和任务的时间属性和空间属性,并针对离线和在线两种场景下的任务分配问题,分
16、别提出蚁群优化算法和预测型在线算法,目的是最大化平台的整体效用。SONG12等人研究了多技能动态任务分配问题,并提出一种在线贪婪算法,为新出现的工人和任务计算最优匹配。XIAO13等人研究了平均完工时间敏感的合作任务分配问题,并提出一种基于任务优先分配及最早用户接受任务的在线贪婪算法。MIAO14 等人提出一种衡量任务质量的概率模型和一个表征工人行为模式的搭便车模型,并利用多项式时间任务分配算法求解在线任务分配中的最大化质量问题。然而,实时分配效用低下、成本昂贵,现实应用场景不多。现有的批量分配模式大多采用固定分配方式,在实验中确定选取合适的批量大小。TO18等人采用等批量分配模型,将任务分配
17、问题在每个批次内定义为一个二分匹配问题,并将其转化为最大流量问题进行求解。WANG19等人提出一个基于延迟时间的动态与静态相结合的任务分配框架,并使用Q学习判断是否需要延迟分配当前任务,从而提高任务分配效率。等批量模型无法适应实际应用中复杂的环境,因此,如何实时调整批量大小以适应复杂多变的环境备受关注 2 0,2 1。深度强化学习可以通过智能体与环境进行交互的方式获得经验,在迭代过程中不断调整策略,从而获得最优策略。因此,将强化学习应用于群智感知动态任务分配问题中能发挥良好的作用。WANG2等人研究了动态二分匹配问题,并基于Q学习提出一种自适应批处理算法。SUN23等人研究了动态信任感知任务分
18、配问题,并提出一种基于改进深度Q学习的信任感知任务匹配算法。LIU24等人提出一种分布式多智能体深度强化学习,将卷积神经网络(ConvolutionalNeural Network,C NN)提取的特征作为网络输入,得到实时动作,从而更好地匹配工人和任务。姚昌华 2 5等人针对多个智能体在缺乏先验知识的未知环境中的自主协作探索任务问题,提出一种基于障碍物边界点过滤的多智能体协同探索算法。该算法综合考虑了边界点与障碍物相对分布情况,进而优化多智能体探索任务选择和资源分配问题。TAO26等人将任务分配问题建模为带有时间窗口的路径规划问题,并使用双深度Q网络进行求解。在与平台交互时,工人通常需要上传
19、自己的真实位置,可能会暴露工人的隐私。因此,在任务分配过程中,工人位置信息的隐私保护至关重要。2 0 0 6 年,DWORK2等人提出了差分隐私技术,并进行了严格的数学证明。TO28等人提出一种基于差分隐私和地理广播的隐私保护机制,在为工人提供隐私保护的情况下,保证了数据的可用性。晏燕 2 9等人针对差分隐私保护下的大数据统计发布领域中的隐私预算分配问题,提出一种等比差分隐私预算分配方法。该方法的核心思想是通过分析大数据统计划分结构和发布误差,推导等比差分隐私预算分配方法。上述方案都需要一个可靠的第三方收集数据,并在适当分配隐私预算后对451NETINFOSECURITY技术研究2024年第3
20、期这些数据进行扰动处理。然而,在实际应用中,寻找一个真正可信的第三方很困难,同时合理分配隐私预发布任条感乐数据进入平算也是一个难题。WANG30等人提出了一种差分隐私-失真隐私位置混淆的隐私保护方案,该方案使用一个台工人报酬混合整数非线性规划问题,在差分隐私和失真隐私约感知数据收集束下最小化工人的期望旅行距离。该方案不需要任何第三方可信实体,并且可以为不同工人提供不同的隐私预算。然而,在现有研究中,动态任务分配问题常被简化为一个二分匹配模型,忽略了工人属性对任务执行的重要影响。同时,在任务分配过程中,过度关注效用最大化会导致工人位置隐私泄露。此外,面对庞大的状态空间和动作空间直接应用强化学习进
21、行任务分配会导致模型执行效率低下。2系统模型图1为本文的系统模型架构,该模型分为批次划分和批匹配两部分。任务发布者在平台上发布一批时间敏感的感知任务,平台对当前任务和在线工人执行划分策略,将其划分为一系列批次进行匹配。根据划分批次的执行顺序,平台对划分在同一批的任务和工人进行匹配,最大限度提高平台的效用,而当前批次没有匹配成功的任务和工人则进人下一批匹配,其中过期任务将不再分配。工人完成匹配任务后将任务感知结果上传到平台。平台将感知结果返回给任务发布者,并获得相应报酬,同时为工人支付相应报酬。假设当前MCS平台上有m名在线可用工人,表示为W=(mi,W2,wm),单个工人表示为w,=(lw,a
22、w,eiw,Tw,qiw,SKm),其中,lw表示工人在时间am到达平台位置;iw表示工人离开平台的时间;rw表示工人服务区域半径;qim表示工人的声誉,用来衡量工人历史任务完成的质量;SK表示工人掌握的技能。任务发布者在平台上发布了n个时间敏感任务,表示为T=(t,t2,t),单个任务表示为t,=(ljn,ajnejn,bin,ctj,SK,其中,ln表示该任务在时间j发布时的位置,e,表示任务截止时间,ct,表示最低工人能力阈值,SK,表示任务的技能要求。工人至少要满足一项技能才能匹配此任务。感知数据收集划分策略分批匹配第1批匹配未匹配、未过期任务图1系统模型架构2.1效用函数为了保证任务
23、完成质量,本文通过工人信誉和技能匹配度两个指标衡量工人完成任务的能力。1)工人信誉工人信誉qi通过工人的历史完成任务质量进行衡量,且工人最近完成任务的质量评分较之前完成任务的质量评分更能体现工人信誉。因此,本文引人一个衰减值8,参与工人信誉的评估,最近一次完成任务的质量评分衰减值权重为1,之前完成任务的质量评分衰减值按照公式(1)的衰减函数进行计算。1,j=h;8j=lule,1j0n4uEhaqiw=hh其中,q;为工人i完成任务j的质量评分,hq;为工人历史任务质量评分集。2)技能匹配度技能匹配度sc,用来描述工人w;拥有的技能与任务t,的匹配程度。技能匹配度越高,工人完成任务的质量越高。
24、技能匹配度sc,可以通过工人和任务之间的相似技能的数量与任务所需技能数的比值进行衡量,如公式(3)所示。SKmwnSKSCij=JSK,3)工人能力在工人w与任务t,进行匹配时,需要先计算工人w完成任务t,的能力值cati,该值可通过工人信誉qiw和技能匹配度sc,进行计算,如公式(4)所示。当cat,ct,时,两者满足匹配条件。catij=qiw+(1-)sCj其中,为权重系数,本文将其设置为=0.5。4)平台效用工人w,成功匹配完成任务t,的平台效用ui通过公式(5)进行计算。uj=Vj-Pij其中,v,表示工人w完成任务t,为平台带来的贡献,P,表示支付给工人w,的报酬。为了保证工人的利
25、润,需piCj,其中,Cj=td,表示为工人完成任务的成本,T表示单位距离的报酬。2.2问题描述给定n个时间敏感任务,m个在线工人,平台根据划分策略将其划分为多个批次匹配,其目的是找到一个最优的匹配结果集合M,使平台总效用最大化。集合M包含多个(wi,t)匹配,其中,w,eW,t j e T,每个工人和任务只能出现一次。任务分配过程可描述为一个效用函数最大化问题,目标函数如公式(6)所示。maxU=Z.(2)其约束条件如公式(7)公式(9)所示。ejieiwwdjcatfctji其中,V(wi,t)e M。公式(6)表示成功匹配的结果M的最大平台总效用,在公式(7)公式(9)的约束下进行求解。
26、公式(7)公式(8)和公式(9)分别表示为任务截止时间不能超过工人离开平台的时间、任务在工人的服务范围内以及工人能力必须满足任务最低接受值。(3)3基于DDQN的自适应任务分配策略3.1工人位置隐私保护策略为了解决任务中的工人位置隐私保护问题,本文引人了-地理不可区分性 31 概念。地理不可区分性的基本思想是任意两个距离不超过r的位置1和/,若在随机扰动机制K的扰动下生成的扰动位置呈相似分布,(4)则认为随机扰动机制K满足-地理不可区分性。定义1-地理不可区分性对于Vl,IL,L是所有工人位置集合L通过机制K的输出,如果机制K满足8-地理不可区分性,则对1和的输出位置1二L有公式(10)成立。
27、(5)K()(I)ea(.)K(1)(T)其中,K(I)(i)表示在位置点1报告1 的概率,d(1,1)表示1和/之间的欧氏距离。公式(10)表示,当机制K输人/与时,得到同样的输出7 的概率在e()范围内。传统的拉普拉斯机制主要针对一维数据,而工人位置信息包含二维空间坐标,因此拉普拉斯机制不能直接处理位置数据。为了在二维平面上实施有效的隐私保护,并满足地理不可区分性的要求,本文引人平面拉普拉斯分布的概念。给定R,实际位置lR,对于任意一个通过机制产生的扰动位置IR,其概率密度函数如公式(11)所示。(6)(7)(8)(9)(10)453NETINFOSECURITY技术研究2024年第3期信
28、息,给出批次划分策略,并根据奖励反馈自适应调整、D.(U)()2元公式(11)即为以1为中心的平面拉普拉斯分布。为了方便计算,将平面坐标系转换为以1为中心的极坐标形式,则概率密度函数可由公式(12)表示。(12)De,o(0)De,R(r)=-re-ed(i,7)2元其中,De,R(r)符合参数为(2,1/e)的Gamma分布。为了保护工人位置隐私,本文在工人的真实位置添加满足平面拉普拉斯分布的随机噪声,并将扰动位置上传到平台。工人干扰位置生成算法如下。输人:工人真实位置lw,隐私预算8输出:工人干扰位置1w在均匀分布的区间 0,2 元)随机生成 0C,(r)=J,De,r(p)dp=1-(I
29、+er)e-er在均匀分布的区间 0,1)随机生成概率Pr=Cl(P)=-(w.(Twdj:根据公式(14)计算工人能力catiif cat,cti:M,(M,U(wi,t,)根据公式(5)计算平台效用uiU,(U,Uui)endifend ifend forif M,=:RMk-(RM,Ut)else:计算最大化平台效用muieU,和对应的任务匹配对mkieM,M(M,Umki),U,(U,Umui)删除已匹配的工人和任务endifend for基于能力阈值的贪婪分配算法复杂度包括时间复杂度和空间复杂度。该算法首先需要对可用任务T进行遍历,复杂度为O(T);然后在可用工人W中为每个任务寻找候
30、选工人,最坏的情况下复杂度为O(W)。因此,该算法的整体时间复杂度为O(TW)。在运行过程中,任务或工人完成匹配后便不再参与后续的分配,因此实际的时间复杂度会低于此上界。基于能力阈值的贪婪分配算法存储所有任务和工人信息的空间复杂度为O(T+W)。对于每个任务,需要存储候选工人的集合,在最坏情况下需要O(W)的存储空间,但该空间是临时分配的,且对每个任务是独立的,可以复用这部分空间,因此额外空间复杂度仍为O(W)。综上,该算法的整体空间复杂度为O(T+W)。3.4安全性分析下面证明DDQNAT策略中工人位置隐私保护策略满足-差分隐私。定理1对于一组位置集L,其可能输出的位置集为L。对于L中任何相
31、近的位置1和,给定隐私预算8,D D Q NA T 策略中工人位置隐私保护策略满足-差分隐私,即满足公式(10。证明:公式(11)描述了工人位置隐私策略中由位置1生成扰动位置1的概率密度函数。相应地,由位置/生成扰动位置1的概率密度函数如公式(18)所示。D.()(U):eed(r.7)2元于是可以得到:D.()=e(d(l,1)-a(1,7)D.()()根据三角形不等式,有:D.(D()eed(.t)D.(T)将积分运算应用于方程两边,可得到:J D,()()dse-au)J D.(1)()dsS用户扰动位置的生成算法的定义为:K(I)(S)=J D,(I)(I)dsS可以推导出:K(0)(
32、S)ed(.)()(S)因此,工人位置隐私保护策略满足-差分隐私,可以为工人提供可靠的隐私保障。在工人的本地设备使用基于地理不可区分性的扰动机制对其位置信息进行扰动处理,将扰动的位置数据上传至平台,可以有效保护工人位置信息的安全性。4实验及分析4.1实验设置本文实验的计算机配置为AMDRyzen74800UwithRadeon Graphics 2.10GHz处理器,16 GB运行内存,6 4位Windows10操作系统,实验运行环境为Python3.7。实验数据基于Yelp32和DiDi32两个真实数据集,从中(18)(19)(20)(21)S(22)(23)456NETINFOSECURI
33、TY2024年第3期技术研究提取部分数据模拟工人和任务的位置和时间属性,其他属性的取值则在一定范围内随机生成并服从某种特定分布。具体取值范围及实验参数如表1所示。表1任务分配模型参数设置参数取值工人数量m400,500,600,700,800任务数量n200,400,600,800,1000隐私预算:In(2,4,6,8,10)工人服务区域半径w1020工人声誉qiw01工人能力cati01任务预算bj3060任务能力阅值cii01技能匹配度sci01批量大小力b10,20,30,40,50本文使用PyTorch构建深度神经网络模型。训练前,需要对不同状态的特征进行归一化以消除量纲,保证每个状
34、态对模型的影响处于同一个数量级。训练过程中,随机选择动作的贪婪概率E从0.95衰减到0.0 1,折扣因子设为0.95,批量样本数设为12 8,经验回放内存设为10 0 0 0。此外,学习率对模型效果的影响重大,因此选取合适的学习率至关重要。过大的学习率会导致模型无法收敛,而过小的学习率则会导致模型学习缓慢,甚至陷人局部最优。图3为本文模型在不同学习率下的平台总效用。1.8X1041.71.621.51.41.21.11.00.91000图3不同学习率对平台总效用的影响由图3可知,随着训练次数的增加,模型在不同学习率下得到的平台总效用会收敛至不同位置。当学习率为0.1时,学习率较大,因此模型在前
35、期收敛较快,但最后陷人了局部最优。当学习率为0.0 0 0 1时,虽然模型在前期学习缓慢,但后期能够收敛到某个最高的奖励值。因此,本文将学习率设置为0.0 0 0 1。网络模型参数的具体取值如表2 所示表2 网络模型参数设置参数取值批量样本数B128贪婪概率E0.950.01学习率1r0.0001折扣因子0.95经验回放内存RM10000为验证DDQNAT策略的性能,将其与随机批量分配(Random Batch Task Allocation,R BT)策略33、等批量分配(Fixed BatchTask Allocation,FBT)策略 19和基于Q学习的自适应批量分配(Q-Learmin
36、g Adaptive TaskAllocation,Q LA T)策略 2 2 在隐私预算、工人数量和任务数量3个维度的性能进行对比。RBT策略随机选取批量大小进行工人和任务匹配,FBT策略以固定的批量大小进行工人和任务匹配,QLAT策略根据当前环境基于Q学习自适应选取批量大小进行工人和任务匹配。为了评估隐私保护技术对任务分配造成的影响,将未使用工人位置隐私保护策略的DDQNAT(NP)作为对照组。当FBT策略与其他策略进行比较时,需要选取具有最佳性能的批量大小fb,以此保证实验的公平性。表3为默认参数下fb从10 到50 变化时平台总效用和匹配任务数量的情况。由表3可知,随着fb的增加,平台
37、总效*用先增加后减少。fb越大,每个批次的在线工人和任务-0-lr=0.0001-含-lr=0.001*.1-0.01-*-lr=0.120003000送代次数/次越多,任务可以匹配到更优秀的工人,因此最初平台总效用会增加。然而任务的截止时间有限,部分任务会在批量分配任务之前过期,从而导致平台总效用和任务匹配数量下降。因此,本文设置FBT的初始批量大小fb为30进行对比实验。40005000表3平台总效用和匹配任务数量随fb变化情况Jb10平台总效用2434051匹配任务数量/个520104308834664355462201524050134457NETINFOSECURITY技术研究202
38、4年第3期4.2隐私保护预算对任务分配的影响该实验主要验证隐私预算对DDQNAT策略性能的影响。将工人数量和任务数量设置为6 0 0,隐私预算从ln(2)增加到In(10),观察平台总效用和匹配任务数量的变化,结果如图4和图5所示。2.510-*-RBT2.0-含-FBT.QLAT-O-DDQNATA-DDQNAT(NP)1.00.52图4隐私预算对平台总效用的影响700RBTFBT600QLATDDQNAT500JDDQNAT(NP)400300200100图5隐私预算对匹配任务数量的影响由图4可知,DDQNAT(NP)策略取得了最高的平台效用,这是因为DDQNAT策略为了保护工人隐私而损失
39、了一定的效用。同时,随着隐私预算的增加,除了DDQNAT(NP)策略之外的4种策略得到的平台总效用都在增加。隐私预算越大,工人提供的干扰位置与任务之间的距离越接近两者的真实距离,从而减少成本,平台可以为任务匹配到成本更低的工人。然而,当隐私预算达到ln(8)时,平台总效用的增长速度开始放缓。因此,后续实验采用In(8)作为默认的隐私预算值。在实际应用场景中,应根据工人和平台的隐私预算偏好进行适当调整。此外,在考虑隐私保护的情况下,DDQNAT策略明显优于RBT策略、FBT策略和QLAT策略。DDQNAT策略可以根据当前的工人和任务自适应地调整匹配的批量大小,及时分配即将到期的任务。RBT策略和
40、FBT策略分别通过随机和固定选择批量大小进行匹配,导致部分任务在匹配之前已经过期,从而导致平台效用下降。由图5可知,随着隐私预算的增加,除DDQNAT(NP)策略外的4种策略的匹配任务数量都在上升。隐私预算越大,工人提供的干扰位置与任务之间的距离越接近两者的真实距离,工人在其服务区域内拥有更多的任务选择,原本未能匹配到工人的任务也匹配46隐私预算(In)24隐私预算e(In)8681010到了合适的工人。此外,在考虑隐私保护的情况下,DDQNAT策略相较于RBT策略、FBT策略和QLAT策略可以更好地应对各种复杂的情形,自适应调整分配批量大小,从而找到最优的匹配方案。与未考虑隐私保护的DDQN
41、AT(NP)策略相比,DDQNAT策略在确保工人位置隐私的同时,虽然平台总效用和匹配任务数量有一定降低,但仍处于可接受的范围内。4.3任务数量对任务分配的影响该实验主要研究任务数量变化时,各策略的平台总效用和匹配任务数量的变化情况。实验将隐私预算设置为ln(8),工人数量默认为6 0 0,任务数量从2 0 0 逐渐增加到10 0 0,观察平台总效用和匹配任务数量的变化情况,如图6 和图7 所示。由图6 可知,当任务数量不断增加时,5种策略的平台总效用先快速增加后缓慢增加。任务数量开始增加时有充足的工人可以与任务进行匹配,但当任务数量增加到8 0 0 时,没有充足的工人与任务匹配,平台效用增长逐
42、渐变缓。此外,在考虑隐私保护的情况下,DDQNAT策略的平台效用远高于RBT策略、FBT策略和QLAT策略。DDQNAT策略根据当前工人和任务的分布情况自适应调整匹配的批量大小,及时分配快到458NETINFOSECURITY2024年第3期技术研究3.0104-RBT-含-FBT2.5.QLAT-O-DDQNAT-A-DDQNAT(NP)2.01.51.00.50200图6 任务数量对平台总效用的影响600RBTAFBT500QLATDDQNATDDQNAT(NP)400300200100图7 任务数量对匹配任务数量的影响期的任务。RBT策略和FBT策略无法自适应调整批量大小,因此获得的平台
43、效用较低。虽然QLAT策略也属于自适应分配策略,但工人任务匹配环境复杂,该策略因无法快速适应从而陷入局部最优,只能找到次优的匹配方案。随着任务数量的不断增加,匹配任务数量的增长趋势与平台总效用增长趋势类似。当任务数量为2 0 0 时,任务数量较少,大量工人无法匹配到任务,导致成功匹配的任务数量较少。当任务数量由2 0 0 增加到6 0 0 时,有更多的任务加人平台中,原本没有匹配到任务的工人也可成功匹配,成功匹配的任务数量快速增加。然而,当任务数量增长到8 0 0 时,由于工人数量不足,匹配任务数量增长变慢。此外,在考虑隐私保护的情况下,DDQNAT策略相较于RBT策略、FBT策略和QLAT策
44、略在复杂的匹配场景能够自适应调整分配批量大小,从而成功匹配更多的工人任务对。4.4工人数量对任务分配的影响该实验主要研究工人数量变化时,各策略的平台总效用和匹配任务数量的变化情况。实验将隐私预算设置为ln(8),任务数量默认为6 0 0,工人数量从40 0 增加到8 0 0,观察平台总效用和匹配任务数量的变化情况,如图8 和图9所示。3.0104400600任务数量/个200400任务数量/个80060080010001000-RBT-含-FBT2.5.QLAT.O-DDQNATA-DDQNAT(NP)1.00.5400图8 工人数量对平台总效用的影响600网RBTZFBTVQLAT500DD
45、QNATJDDQNAT(NP)4003002001000图9工人数量对匹配任务数量的影响由图8 可知,当工人数量增加时,所有策略的平台总效用逐渐增加。工人数量较少时,部分任务可能无法匹配到工人或只能匹配到成本较大的工人,从而导致平台总效用较低。然而,随着更多的工人加人平台中,任务可匹配更多优秀的工人,效用也随之增加。然而任务数量是固定的,当工人数量增加到7 0 0 时,大部分任务500400500600工人数量/个600工人数量/个700700800800459NETINFOSECURITY技术研究2024年第3期已经匹配到了最优工人,只有少量的任务需要进行重分配。此外,在考虑隐私保护的情况下
46、,DDQNAT策略获得的平台总效用远高于RBT策略、FBT策略和QLAT策略。由图9可知,随着工人数量的增加,匹配的任务数量也在不断增加。工人数量增加时,任务有机会与更优的工人进行匹配。但任务数量固定,当工人数量增加到7 0 0 时,大部分任务已经成功匹配,只有少量的任务未匹配。因此,随着更多工人的参与,即便匹配数量有所增加,但增长幅度并不明显。此外,在考虑隐私保护的情况下,DDQNAT策略相较于RBT策略、FBT策略和QLAT策略能匹配到更多的任务。5结束语本文针对MCS中的动态任务分配问题,在考虑隐私保护的前提下,以最大化平台总效用为目标,提出了一种基于深度强化学习和隐私保护的群智感知动态
47、任务分配策略。实验结果表明,该策略在动态任务分配中表现出了优异的自适应调整能力,实现了平台总效用的最大化和匹配任务数量的增加。下一步将研究通过合作机制实时分配更多任务,进一步提升平台的效用和匹配任务数量。参考文献:1 GANTI R K,YE Fan,LEI Hui.Mobile Crowdsensing:Current State andFuture ChallengesJ.IEEE Communications Magazine,2011,49(11):32-39.2 CAPPONI A,FIANDRINO C,KANTARCI B,et al.A Survey onMobile Crow
48、dsensing Systems:Challenges,Solutions,and OpportunitiesJ.IEEE Communications Surveys&Tutorials,2019,21(3):2419-2465.3 ZHENG Zhenzhe,WU Fan,GAO Xiaofeng,et al.A Budget FeasibleIncentive Mechanism for Weighted Coverage Maximization in MobileCrowdsensingJ.IEEE Transactions on Mobile Computing,2016,16(9
49、):2392-2407.4 WANG Xiong,ZHANG Jinbei,TIAN Xiaohua,et al.Crowdsensing-Based Consensus Incident Report for Road Traffic Acquisitionl.IEEETransactions on Intelligent Transportation Systems,2017,19(8):2536-2547.5 BALLESTEROS J,CARBUNAR B,RAHMAN M,et al.TowardsSafe Cities:A Mobile and Social Networking
50、ApproachDJ.IEEE Transactionson Parallel and Distributed Systems,2013,25(9):2451-2462.6 ALEMDAR H,ERSOY C.Wireless Sensor Networks for Healthcare:ASurveyll.Computer Networks,2010,54(15):2688-2710.7 JIANG Wejin,CHEN Junpeng,LIU Xiaoliang,et al.ParticipantRecruitment Method Aiming at Service Quality in