基于图协同过滤模型的D2D协作缓存策略.pdf

资源描述

1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期通信学报 Vol.44 No.7基于图协同过滤模型的 D2D 协作缓存策略陈宁江1,2,3，练林明1，欧平杰1，袁雪梅1（1.广西大学计算机与电子信息学院，广西南宁 530004；2.广西高校并行分布与智能计算重点实验室，广西南宁 530004；3.广西智能数字服务工程技术研究中心，广西南宁 530004）摘要：针对设备到设备（D2D）缓存中基站信号覆盖范围有限导致的难以获得足够数据来预测用户偏好的问题，提出了一种基于图协同过滤模型的 D2D 协作缓存策略。首先

2、，构建图协同过滤模型，通过多层图卷积神经网络捕捉用户内容交互图中的高阶连通信息，并利用多层感知机学习用户和内容之间的非线性关系来预测用户偏好。其次，为了最小化平均访问时延，综合考虑用户偏好和缓存时延收益，将缓存内容放置问题建模为马尔可夫决策过程模型，设计基于深度强化学习的协作缓存算法进行求解。仿真实验表明，与现有的缓存策略相比，所提缓存策略在不同的内容种类、用户密度和 D2D 通信距离参数下均取得了最优的性能效果。关键词：设备到设备；图协同过滤；协作缓存；深度强化学习中图分类号：TN92 文献标志码：A DOI:10.11959/j.issn.1000436x.2023131 D2D coo

3、perative caching strategy based on graph collaborative filtering model CHEN Ningjiang1,2,3,LIAN Linming1,OU Pingjie1,YUAN Xuemei1 1.School of Computer and Electronic Information,Guangxi University,Nanning 530004,China 2.Key Laboratory of Parallel,Distributed and Intelligent Computing(Guangxi Univers

4、ity),Education Department of Guangxi Zhuang Autonomous Region,Nanning 530004,China 3.Guangxi Intelligent Digital Services Research Center of Engineering Technology,Nanning 530004,China Abstract:A D2D cooperative caching strategy based on graph collaborative filtering model was proposed for the prob-

5、lem of difficulty in obtaining sufficient data to predict user preferences in device-to-device(D2D)caching due to the li-mited signal coverage of base stations.Firstly,a graph collaborative filtering model was constructed,which captured the higher-order connectivity information in the user-content i

6、nteraction graph through a multilayer graph convolutional neural network,and a multilayer perceptron was used to learn the nonlinear relationship between users and content to predict user preferences.Secondly,in order to minimize the average access delay,considering user preference and cache delay b

7、enefit,the cache content placement problem was modeled as a Markov decision process model,and a cooperative cache algorithm based on deep reinforcement learning was designed to solve it.Simulation experiments show that the proposed caching strategy achieves optimal performance compared with existing

8、 caching strategies for different content types,user densities,and D2D communication distance parameters.Keywords:D2D,graph collaborative filtering,cooperative caching,deep reinforcement learning 收稿日期：20221008；修回日期：20221220 通信作者：练林明，gxu_ 基金项目：国家自然科学基金资助项目（No.62162003,No.61762008）；南宁市重点研发计划基金资助项目（No.

9、20221031）Foundation Items:The National Natural Science Foundation of China(No.62162003,No.61762008),Nanning Key Research andDevelopment Program(No.20221031)第 7 期陈宁江等：基于图协同过滤模型的 D2D 协作缓存策略 137 0 引言随着智能终端的普及和智能工业制造、虚拟现实、视频直播等新型无线业务的不断涌现，支持海量内容交付以及满足用户低时延的要求对现有技术提出了重大挑战，使设备到设备（D2D,device to device）缓存

10、成为当前研究热点1-2。目前，D2D 缓存面临的关键挑战是决定在有限的存储容量中缓存哪些内容，解决方案之一是主动缓存策略，通过提前缓存热门内容来提高缓存命中率。内容流行度的准确预测可以有效降低内容访问时延和提高用户体验3。但是在 D2D 缓存中，内容的缓存流行度高并不代表每个用户对该内容都具有较高的请求概率。因为用户对不同的内容有其自身的偏好，缓存策略需要考虑用户偏好的差异性4。现有的一些研究假设内容流行度依赖先验知识5-7或者通过预测动态内容流行度8-9来设计 D2D 缓存策略，没有区分内容流行度和用户偏好，因此很难获得最优的缓存策略。为了进一步改进 D2D 缓存策略，文献10提出在 D2D

11、缓存中，与基于内容流行度的策略相比，具有用户偏好的缓存策略可获得显著的性能提升。一些研究工作在设计 D2D 缓存策略时考虑了用户偏好的影响11-14。随着深度学习的兴起，神经网络15也被应用于预测用户偏好。但是，采用数据驱动的传统机器学习或深度学习方法需要采集大量的样本。由于信号覆盖范围有限，每个基站只能与有限数量的用户通信。与基于云的学习相比，基站中可用的数据集非常稀疏。特别是随着移动互联网内容多样性的迅速增长16，用户内容交互矩阵的稀疏性进一步增加，因此很难准确预测用户偏好。此外，缓存内容放置策略直接决定了由 D2D流量分流的比例，对提高缓存命中率起着重要作用，需要设计高效的缓存策略。针

12、对上述问题，本文提出一种基于图协同过滤模型的 D2D 协作缓存策略，简称 GCFC（graph collaborative filtering caching）策略。首先，GCFC构建图协同过滤模型来预测用户偏好，有效提高了用户偏好预测精度；其次，将内容放置问题建模为马尔可夫决策过程（MDP,Markov decision progress），采用基于深度强化学习的协作缓存算法求解。本文的主要贡献如下。1)构建图协同过滤模型以预测用户偏好。针对数据稀疏导致的用户偏好预测误差问题，将用户和内容的历史访问行为建模为用户内容交互图作为模型输入，通过多层图卷积神经网络捕捉用户内容交互图中节点之间的高阶

13、连通信息，对初始的用户和内容特征向量进行聚合得到嵌入向量并将其输入多层感知机中来预测用户对内容的偏好。2)提出一种基于深度强化学习的缓存内容协作放置策略。为了最大化缓存命中率，将缓存内容放置问题建模为马尔可夫决策过程，综合考虑用户偏好和缓存时延收益，采用基于价值函数的深度 Q网络（DQN,deep Q-network）算法，并获取每个设备的最优内容缓存向量。1 相关工作随着设备存储能力的提高和 D2D 通信技术的发展，D2D 缓存被认为是减轻移动边缘网络回程压力的一种有前途的解决方案。文献5根据内容流行度制定最佳缓存方案以最大化 D2D 系统的总卸载概率。文献6基于协作缓存模型使用二分图技术

14、来最大化用户有效容量。文献7利用随机几何理论对目标平均传输时延建模，使用次优迭代算法获得缓存策略。这些缓存策略都依赖于内容流行度的先验知识假设，没有考虑实际内容流行度与统计规律之间的差异。文献8-9考虑了内容流行度的动态变化，其中，文献8设计分组线性模型来预测内容流行度，文献9通过使用逻辑回归模型在线估计未来的内容请求。尽管通过预测内容流行度可以在一定程度上提高缓存命中率，但是上述缓存策略没有区分内容流行度和用户偏好。在 D2D 缓存中，用户请求首先访问本地缓存，而不是边缘计算（MEC,mobile edge computing）服务器，缓存策略需要考虑到用户偏好的差异性。为了解决上述问题，许

15、多缓存策略开始考虑用户偏好。文献11假设用户偏好为先验知识，即基站知道所有用户对内容的偏好，这可能并不符合实际。文献12-13基于协同过滤算法来预测用户偏好。文献14提出了一种基于协同过滤和潜在因子模型的级联用户偏好预测算法。但是，协同过滤依赖于用户对内容的历史访问记录，用户内容交互矩阵通常很大且稀疏，会导致学习方法效率低下。针对上述稀疏性问题，文献15考虑到深度学习在特征提取方面的优势17，采用了神经协同过滤来预138 通信学报第 44 卷测用户偏好。与上述工作不同，本文将用户和内容的历史访问行为建模为用户内容交互图，通过多层图卷积神经网络捕捉用户内容交互图中节点之间的高阶连通信息

16、。这些高阶连通信息包含了丰富的偏好消息，有利于进一步提高预测精度。近年来，为了有效处理图结构信息，研究者提出了一种图卷积神经网络18对图结构数据进行精准的特征提取。文献19-20通过基于谱域的图卷积神经网络挖掘内容流行度在不同 MEC 服务器的空间关联性，有效提高了预测精度，但上述工作关注的是 MEC 服务器缓存场景下的全局内容流行度，忽略了用户偏好。与文献19-20不同，本文在 D2D 通信蜂窝网络场景下，将用户对内容的历史访问记录抽象为用户内容交互图，利用基于空域的图卷积神经网络高效挖掘用户偏好信息，提高预测精度。在 D2D 缓存内容放置过程中，高效的缓存内容放置策略直接决定了 D2D 流

17、量分流的比例和用户访问时延。文献5,7采用随机几何的方法在 D2D通信网络中设计了概率缓存策略。文献12预测得到用户偏好矩阵，每个用户在放置阶段贪婪地存储自身最喜欢的文件。上述缓存策略都根据用户自身的偏好贪婪缓存内容而忽略周围其他 D2D 用户的偏好。实际上，在 D2D 缓存中，基于用户群组的缓存策略可以有效提高缓存命中率21。因为用户群组中具有密切关系的用户可能有相似的兴趣。为此，文献15,22考虑用户之间的社交关系，通过构建重要用户群组来缓存内容。为了保证内容缓存的多样性，文献23将用户划分为不同社区群组，缓存策略由用户对内容的贡献程度决定。综上所述，现有基于用户偏好的 D2D 缓存策略可

18、以有效提升缓存命中率和降低访问时延，但是在预测用户偏好时仍面临数据稀疏问题。此外，缓存内容放置需要综合考虑用户偏好和周围用户的请求来选择最优缓存方案。与文献15,22-23不同，本文的工作不仅结合用户自身偏好进行协作缓存，还考虑缓存内容放置在不同用户的时延收益。2 系统模型与问题描述本文考虑支持 D2D 网络缓存的系统模型，如图 1 所示。假设系统中包括M 个移动用户的集合12,MUu uu和一个基站。基站拥有内容库12,LFfff，所有内容大小都为O，同时监控用户访问行为，控制 D2D 用户通信链路建立和决定何时更新用户设备缓存内容。在非高峰流量期间，基站提前缓存内容到各个用户设备中。每个

19、用户设备都可以缓存相应内容，缓存容量为，,1m ix表示用户mu缓存内容if。图 1 支持 D2D 网络缓存的系统模型在上述系统模型中，假设用户mu访问内容if，内容访问流程如下。首先，检索本地缓存。如果mu已经缓存内容if，则直接从本地缓存中获取内容。如果本地缓存未命中，但在距离用户mu半径为cr的范围内至少存在一个空闲用户缓存了内容if。此时，基站将会根据满足条件的用户的位置和缓存信息选取距离最近的用户设备建立 D2D 通信链路。如果本地缓存和 D2D 缓存都未命中，则用户mu将向基站请求内容if。根据上述内容访问流程，接下来对系统卸载概率和内容平均访问时延进行分析。1)系统卸载概率系

20、统卸载概率定义为本地卸载概率localp和D2D 卸载概率d2dp。假设所有用户设备缓存内容if的概率为iq，用户偏好集合为12,MPp pp，,1,2,mmmm Lpppp，即mu请求内容if的概率为,m ip，则local,m iippq。考虑用户移动的随机性，假设用户位置服从密度为的泊松分布，在距离用户mu半径为cr的范围内有I个用户的概率为 22()(,)e!cdr ccr p I r I(1)所有缓存了内容if的用户服从密度为iq 的泊松分布，用户mu请求内容if的D2D卸载概率d2dp为 2d2d1(0,)1eicq rcippr q (2)第 7 期陈宁江等：基于图协同过滤模型

21、的 D2D 协作缓存策略 139 2)内容平均访问时延结合上述内容访问流程的3种缓存命中状态，内容平均访问时延可定义为本地命中传输时延local0T、D2D传输时延d2d,m nOTR和基站传输时延BSBSTOR。其中，,m nR表示用户mu和nu的文件传输比特率，计算式为 2,0,lb 1 SINRm nm nm nRBHd(3)其中，B为信道带宽，0SINR为设备传输功率与通信干扰功率之和与噪声和的比值，,m nd为用户mu和nu的距离，为路径损失系数，,m nH为瑞利衰落假设下用户mu和nu的信道衰减因子。综上所述，当用户mu请求内容if的概率为,m ip时，本地缓存命中概率为,m i

22、ipq，D2D通信概率为,d2d(1)m iipq p，蜂窝通信概率为,d2d(1)(1)m iipqp，则本文的优化目标最小化内容平均访问时延可表示为 all,locald2dd2dd2dBS11min(1)(1)MLm iiimiTpqTqp TpT (4),1s.t.Lm iiXO (5),0,1,m ixmU iF(6)上述优化问题是非线性约束优化问题，利用传统方法求解复杂度极高。为此，本文将问题的求解分为两部分：首先，构建图协同过滤模型来预测用户偏好；其次，综合考虑用户偏好和缓存时延收益将内容放置问题建模为马尔可夫决策过程并求解。3 解决方案 3.1 图协同过滤模型 3.1.1 模型

23、概述本文将用户和内容的历史访问行为抽象为用户内容交互图,GV E，V为顶点集，包括M个用户节点12,MUu uu和L个内容节点12,LFfff，E为边的集合。如果用户mu访问过内容if，则在 2 个节点之间构建一条边。包含4 个用户节点和其曾经访问过 5 个内容节点的用户内容交互如图 2 所示。图 2 中包含了丰富的协同信号。例如，路径112ufu体现了1u和2u的相似性，因为12uu、都和1f互动过。而路径1124ufuf表示1u可能会访问4f的协同信息，因为1u的相似用户2u与4f互动过。因此对于给定用户集U、内容集F和用户内容交互图G，本文将用户mu对内容i

24、f的偏好转换为用户内容交互图中节点mu和if的链接预测问题。图 2 用户内容交互为了预测用户内容交互图中的节点链接概率，本文构建了一种图协同过滤模型，如图 3 所示，模型主要包含以下 3 个部分：初始特征层、图卷积层和偏好预测层。1)初始特征层：对于相连的用户内容元组(,)miuf，初始化用户mu的特征向量和内容if的特征向量，并将其与用户内容交互图作为模型输入。2)图卷积层：首先，通过基于空域的单层图卷积神经网络对初始的用户和内容特征向量进行邻居特征聚合；然后，以迭代的方式扩展到多层，将协同信号编码到用户和内容特征向量。3)偏好预测层：将更新后的用户和内容特征向量进行拼接并输入多层感知机来

25、预测用户偏好。3.1.2 初始化特征层初始特征层负责将用户和内容特征向量化。首先，使用 one-hot 编码分别将用户和内容的所有特征映射为二值化向量并进行拼接，得到每个用户mu的特征向量muv和内容if关联特征向量ifv。但是one-hot 编码产生的用户和内容特征向量会因某个特征离散值数量过大而变得高维且稀疏。为此，本文将用户mu和内容if的特征向量muv和ifv分别通过 2 个单层感知机映射为低维特征向140 通信学报第 44 卷量，感知机的激活函数使用tanh，即 tanh()mmuuuwev(7)tanh()iifffwev (8)其中，uw和fw为学习参数。然后，将更新

26、后的用户和内容特征向量进行拼接，生成如下矩阵 1212T,MLMLduuufffEeeeeeeR(9)其中，d为特征向量维度。3.1.3 图卷积层 1)一阶传播受神经图协同过滤思想24启发，用户曾经访问过的内容体现了用户的偏好，会影响用户的特征向量。同理，访问过相同内容的用户也会对内容的特征向量产生影响。本文以此为基础利用空域图卷积神经网络的消息传递机制，在用户内容交互图中更新相互连接的用户和内容节点之间的特征向量，主要分为以下2个阶段：消息传递和消息聚合。消息传递。在用户内容交互图中，对于相连的用户内容元组（,miuf），设计节点if传递消息到节点mu的函数为 (1)(0)(0),immi

27、mifuufufFbhee (10)其中，(1)imfuh为消息从内容if传递到用户mu的一阶特征向量，(0)mue为用户mu的初始特征向量，(0)ife为内容if的初始特征向量，,miufb为用户和内容的交互系数，()F为消息编码函数。具体如下 (1)(1)(0)(1)(0)(0),12immiiimfuufffubwwheee(11)其中，12,mimiufufbNN为节点对用户偏好程度的重要性惩罚系数，muN为用户mu的一阶邻域节点，ifN为内容if的一阶邻域节点；为哈达玛积。本文通过(0)(0)imfuee额外编码两者的交互信息，使信息的传递更多地依赖mue和ife的相似程度。节点的度

28、越大则重要性越小，从学习的角度看，用户访问的冷门内容比热门内容更能体现用户的偏好。消息聚合。相连的用户内容元组(,)miuf可通过式(11)进行消息传递，但是用户节点mu的一阶邻域节点不只一个，因此定义聚合函数来聚合所有用户节点mu的一阶邻域传递来的消息，具体如下 (1)1()mjmumufuj Neh(12)式(12)忽略了用户节点mu的自身特征信息，因此除了聚合用户节点mu的所有一阶邻域节点传递的消息，本文还考虑了用户节点mu的自连接信息(1)(1)(0)1mmmuuuwhe，更新后的用户节点mu的一阶特征向量为 (1)(1)(1)LeakyReLUmmmjmumuuufuj Nehh(1

29、3)图 3 图协同过滤模型第 7 期陈宁江等：基于图协同过滤模型的 D2D 协作缓存策略 141 相应地，内容节点if通过与上述用户节点mu类似的消息传递机制来聚合所有一阶邻域节点的传递消息，最终得到一阶图卷积特征向量为 (1)(1)(1)LeakyReLUiiinififffufn Nehh (14)2)高阶传播单层图卷积层虽然通过对用户和内容的一阶邻域进行聚合来增强节点的特征向量，但是忽略了用户内容交互图中的高阶连通信息。这些高阶连通信息包含了丰富的偏好消息，承载了用户的协同信号，对预测用户偏好十分重要。本文通过堆叠k个图卷积层来提取用户内容交互图中的高阶连通信息，使用户和内容节点可

30、以聚合其k阶邻域节点传递来的消息。第k个图卷积层中用户和内容节点的消息传递式的递归表示为()()(1)()(1)(1),12immiiimkkkkkkfuufffubwwheee (15)()()(1)()(1)(1),12miimmmikkkkkkuff uuufbwwheee (16)第k个图卷积层中，用户和内容节点的消息聚合式的递归表示如下 ()()()LeakyReLummmjmumkkkuuufuj Nehh (17)()()()LeakyReLuiiinifikkkfffufn Nehh (18)上述高阶传播过程介绍了如何为用户或者内容节点生成具有协同信号的新特征向量，但是只针对某

31、个具体的用户或内容节点。考虑到用户和内容节点的数量规模较大，为了提高新特征向量的生成效率，本文使用矩阵形式来计算所有节点经过高阶传播后的新特征向量。令 1212T0(0)(0)(0)(0)(0)(0),MLuuufffeeeeee表示所有用户和内容节点的初始特征向量矩阵，则经过k个图卷积层后的特征向量的矩阵计算式为 ()(1)()LeakyReLUkkkELEW (19)其中，()()kdRMLE为第k次图卷积后得到的节点新特征向量，()kW为第k次迭代的参数矩阵，L为标准化的用户内容交互图邻接矩阵。3.1.4 偏好预测层对于上述经过多层图卷积神经网络聚合高阶连通信息后获得的用

32、户和内容特征向量，本文使用多层感知机来学习两者之间的非线性交互关联性。首先，将具有高阶连通信息的用户和内容特征向量进行拼接；然后，输入多层感知机中对用户和内容节点之间的链接概率进行预测。具体计算式为 (0)()()mikkufzee (20)其中，0z表示用户节点和内容节点的拼接向量。将 0z经过第一层神经网络学习可得 (1)(1)(0)(1)fbzwz (21)其中，(1)w为权重矩阵，(1)b为偏置值，()f 为激活函数LeakyReLU。特别地，(1)z在第l层的最终输出值为 ()()(1)()llllfbzwz(22)最终预测用户节点mu和内容节点if的链接概率为 (),()miluf

33、yz (23),miufy反映了用户节点mu对内容if的偏好，即请求内容if的概率。3.2 缓存内容放置上述图协同过滤模型获得用户对内容的偏好，即用户对内容的请求概率。在此基础上，本文将缓存内容放置过程建模为MDP，并采用了基于深度强化学习的算法求解优化问题。MDP由元组(,)S A P R组成，其中，S为系统环境状态空间，A为动作空间，P为当前状态采取特定动作到达下一个状态的概率，R为奖赏函数。状态空间、动作空间和奖赏函数的具体设计如下。状态空间。状态空间nS定义为在第n步时所有用户设备的缓存内容状态，计算式为 12,mnuuuS xxx (24)其中，mux表示用户mu的缓存内容状态向量

34、，,1,2,mmmmuuuuLxxxx，用户mu缓存内容if，则,1muix；否则,muix=0。动作空间。由于每个用户mu都可以选择缓存内容库中的任意内容，将动作空间定义为 1112,MLufufufAaaa (25)其中，,miufa表示用户mu缓存内容if的动作。奖赏函数。本文的优化目标是最小化内容平均142 通信学报第 44 卷访问时延，将奖赏函数定义为缓存时延收益。缓存时延收益指在当前缓存状态下，用户mu未缓存内容if与用户mu已缓存内容if的平均访问时延差值，计算式为 ,BS,d2d()nininAnAmufufuUuUuRpTpT(26)其中，,niufp为用户nu对内

35、容if的请求概率，AU表示以mu为圆心在半径cr内距离mu最近的用户集合，集合中的所有用户都未缓存内容if。如果缓存时延收益大于0，则系统环境将给予智能体正反馈R。3.3 基于深度强化学习的协作缓存算法 DQN通过结合卷积神经网络和Q学习方法来学习近似动作值函数，能够有效解决维度灾难问题。本文将使用DQN算法求解3.2节提出的MDP模型，DQN架构如图4所示。图 4 DQN 架构 DQN架构包含2个具有相同结构的深度神经网络，分别为预测网络和目标网络。预测网络将Q表更新问题转换为使用函数拟合Q值，即 (,)(,)Q s a Qs a (27)其中，s为智能体的当前状态，a为在当前状态下智能体选

36、择的动作，为预测网络的权重参数，Q为Q值函数的近似表示。另一个目标网络则用来计算下一状态的最优Q值，计算式为 (,)max(,)QR s aQ s a (28)上述目标网络的参数的更新方式为延时更新，即每隔固定时间间隔才从预测网络中复制参数到。为了更新神经网络参数，使用TD误差即目标网络的Q值和预测网络的Q值之间的差距来定义均方误差损失函数，即 2()(,)L QQ s a (29)在训练阶段，DQN通过建立经验池来解决Q值学习的不稳定问题。通过-贪婪策略选取动作a，将与环境交互产生的奖励与更新情况元组(,)s a R s放入经验池中。如果经验池的样本达到阈值，则随机从经验池中取出小批样本训练

37、。具体过程如算法1所示。算法 1 基于深度强化学习的协作缓存算法输入 12,Mp ppP 输出 12,MXx xx 初始化 Q,Q,BufferData=null 1)for 每个回合步骤数1t to T do 2)随机选择状态s 3)repeat 4)使用-贪婪策略选择动作,miufa 5)if设备容量muO then 6)0R 7)else 8),BS,d2d()nininAnAmufufuUuUuRpTpT 9)end if 10)智能体获得奖赏R和新的状态s 11)将,s a R s存储到经验回放池 BufferData 12)更新 ss,mmuuO 13)until 任意设备容量小

38、于O 14)从经验回放池BufferData中随机抽取小批量样本,s a R s 15)if s非终止状态 then 16)(,)(,)Q s aR s a 17)else 18)(,)(,)max(,)aQ s aR s aQ s a 19)end if 20)根据损失函数式(29)使用随机梯度下降法更新网络参数 21)每隔固定步长P设置 22)end for 算法1首先初始化预测网络Q和目标网络Q的所有权重参数和经验回放池。其次，在每个回合中，第 7 期陈宁江等：基于图协同过滤模型的 D2D 协作缓存策略 143 使用-贪婪策略选择缓存动作。根据概率随机选择缓存动作,miufa，即将

39、内容if缓存在用户mu，以1 的概率使用贪婪策略选择价值函数最大的动作。执行完所选动作a后，将从缓存环境中得到奖励R和下一状态s。如果用户设备容量小于或等于缓存内容大小O，则设置获得奖赏R为0，表明本次缓存无收益；否则，由式(26)计算得到奖励R。再次，把元组,s a R s存储到经验回放池中并更新系统状态和用户设备容量，直到任意用户设备容量都小于内容if大小时，本回合结束。当经验回放池中的样本达到阈值时，从BufferData中随机采样小批样本，根据损失函数式(29)使用随机梯度下降法更新预测网络权重参数。最后，每隔P步将预测网络的参数赋予目标网络，直到迭代条件终止。4 仿真实验 4.1 仿

40、真实验设计本文采用MovieLens-1M和Douban数据集来评估模型性能，具体描述如表1所示。实验将80%的数据划分为训练集，剩下的20%作为测试集。表 1 数据集描述名称用户数量/个电影数量/个评分记录数量/个MovieLens-1M 6 040 3 883 100 029 Douban 2 000 2 000 106 828 模型构建环境相关参数如下。多层感知机维度为128,64,32，批处理大小为512，模型参数优化采用Adam优化器，学习率为0.001。在DQN算法中，采用离线方式训练模型，当经验回放池BufferData中的数据量到达预设值时才进行训练并更新模型参数。本

41、文设置批处理大小为32，BufferData=500。Q网络采用ReLU激活函数和Adam优化器进行训练，学习率为0.000 01，未来奖励折扣为0.9。仿真实验参数如下。假设小区中宏基站的覆盖范围为500 m，小区内D2D用户服从泊松分布，密度为0.02。其余仿真实验参数如表2所示。表 2 仿真实验参数参数值参数值信道带宽 B/MHz 25 路径损失系数 3 信噪比/dB 30 最大通信距离cr/m 10 文件大小O/B 1 024 文件数量 250 设备容量/KB 10 基站传输时延BST/ms100 评价方法。为了验证所提GCFC策略的有效性，本节将其与以下策略进行对比。1)随

42、机替换（RR,randomized replacement）缓存策略，随机替换已缓存内容。2)基于协同过滤的缓存（CFC,cache based on collaborative filtering）策略12，基于矩阵分解的协同过滤模型来预测用户偏好，每个用户设备贪婪缓存自身偏好最高的内容。3)基于神经协同过滤的缓存（NCFC,caching based on neural collaborative filtering）策略15，基于神经协同过滤模型来预测用户偏好，依次在兴趣相似用户群组中缓存偏好最高的内容，直到所有缓存空间被占用。本文从模型性能和缓存策略性能两方面评估GCFC。1)模型性能

43、本节实验采用的评测指标是平均绝对误差（MAE,mean absolute error）和均方根误差（RMSE,root mean square error）。2)缓存策略性能缓存命中率（CHR,cache hit ratio）定义为特定时间内用户请求由本地缓存或者半径为cr范围内的空闲D2D用户满足的次数hitR与所有请求总数allR的比值，计算式如下 hitallCHRRR (30)平均访问时延（AAD,average access delay），对于每个用户请求，用户获取内容的访问时延计算式如下 alllocald2dBS1all1AADRiTTTR (31)4.2 模型性能分析 1)

44、图卷积层数对模型的影响图卷积层数对模型性能的影响如图5所示。由图5可知，随着图卷积神经网络层数的堆叠，GCFC的MAE和RMSE都呈下降趋势，当层数超过3层后，MAE和RMSE出现了上升趋势。上述实验结果表明，合理的图卷积层数可以有效提升GCFC预测的准确性。图卷积神经网络层数的堆叠使用户和内容节点的初始特征向量可以在用户内容交互图中聚合更多邻域节点的消息，这些高阶连通信息承载了用户或内容的相似性以及交互信息，增加了用144 通信学报第 44 卷户和内容节点的特征向量表征能力。但是当层数堆叠到3层之后，GCFC的预测性能反而下降了。参考热力学中2个有温度差的物体通过互相接触传递热量

45、的过程，物品经过多次热量交换后温度将达到一致。图卷积神经网络中2个节点的消息传递类似于热量交换，经过多层卷积之后，2个节点的特征向量将会变得相似，进而导致模型预测性能下降。为了兼顾模型性能和效率，本文设置图卷积神经网络层数为3。图 5 图卷积层数对模型性能的影响 2)不同数据稀疏度下的模型性能为验证不同数据稀疏度下的模型性能，本文在MovieLens-1M数据集中分别抽取不同数据稀疏度的数据集。数据稀疏度对模型性能的影响如图6所示。从图6可知，在不同数据稀疏度下，GCFC都具有最优的预测效果。其中，当数据样本充足，即数据稀疏度为95.7%时，GCFC的MAE比CFC和NCFC低7.8%和4%

46、，RMSE比CFC和NCFC低9.5%、4.3%。随着数据稀疏度的不断增加，GCFC、CFC和NCFC的RMSE、MAE都不断上升，其中，CFC的准确率和稳定性下降得最快，说明CFC对数据稀疏度敏感，当用户和内容的交互较少时，无法得到准确的推荐。GCFC和NCFC下降趋势较平缓，但GCFC的预测效果优于NCFC。NCFC使用多层感知机来预测用户偏好，效果优于CFC，证明了学习用户和内容之间非线性特征交互的有效性。相比NCFC，GCFC则通过多层图卷积神经网络捕捉用户内容交互图中的高阶连通信息来增强模型的初始特征向量表示，同时使用多层感知机学习用户和内容之间的非线性关系，有效提升了在数据稀疏情况

47、下的预测性能。图 6 数据稀疏度对模型性能的影响 4.3 缓存策略性能评估 1)内容种类对缓存策略性能的影响内容种类对缓存策略性能的影响如图7所示。从图7(a)可知，随着内容种类的增加，所有缓存策略的缓存命中率都呈下降趋势。GCFC、NCFC和CFC的缓存命中率都优于RR，这证明了预测用户偏好进行缓存的有效性。其中，GCFC的缓存命中率在所有策第 7 期陈宁江等：基于图协同过滤模型的 D2D 协作缓存策略 145 略中最高，例如，在内容种类为500时，GCFC的命中率分别比RR、CFC和NCFC高约29%、25%、12%。RR随机缓存内容，不考虑用户偏好，因此性能最差。当内容种类从250种

48、增加到350种时，与GCFC和NCFC相比，CFC命中率下降幅度较大，主要原因是CFC中每个用户都根据自己偏好贪婪缓存内容而忽略周围D2D通信用户偏好，但用户自身容量有限，无法适应内容种类突然增加。GCFC和NCFC都考虑了不同用户间的偏好，通过在用户群组中协作缓存内容，增加内容种类的多样性。从图7(b)可知，随着内容种类的增加，所有策略的时延都呈上升趋势。当内容种类为250种时，尽管NCFC的缓存命中率要优于CFC，但是CFC和NCFC的时延性能差距并不大。因为当内容种类较少时，用户偏好较少，CFC贪婪缓存自身偏好内容使用户请求命中更多为本地缓存命中，本地缓存命中的时延要远低于D2D访问时延

49、。随着内容种类的增加，用户的偏好多样性逐渐增加，GCFC、NCFC通过协作缓存逐渐拉开与CFC的时延性能差距，其中GCFC通过精准的预测用户偏好表现出了最佳的时延性能。图 7 内容种类对缓存策略性能的影响 2)用户密度对缓存策略性能的影响用户密度对缓存策略性能的影响如图8所示。从图8(a)可知，随着用户密度的增加，所有缓存策略的缓存命中率都在增加。对于每个用户设备来说，当小区用户密度增加时，其发出的请求内容可由周围用户设备提供的概率增大，从而提高缓存命中率。当用户密度从0.05增加到0.25时，RR和CFC的命中率增长幅度远低于GCFC和NCFC。其主要原因是RR和CFC都独立缓存自身内容，

50、并不考虑其他用户的偏好。尽管周围用户设备增加了，但是请求仍然难以命中。而GCFC、NCFC都考虑了不同用户设备之间的协作缓存，用户密度的增加使用户设备可通过D2D通信网络获取的内容种类增加。随着用户密度的不断增加，GCFC和NCFC的用户群组之间的协作关系更加紧密，在用户密度为0.25时，GCFC和NCFC的命中率比RR高约46%和30%，比CFC高约37%和22%，体现了协作缓存策略的有效性。在时延性能表现上，从图8(b)可知，随着用户密度的增加，所有策略的平均访问时延都在减少。这是因为用户密度的增加使请求通过D2D通信网络命中的概率增加。用户数量越多，协作缓存能力越强，时延性能越好。当用户

展开阅读全文