1、投稿网址:年 第 卷 第 期,():科 学 技 术 与 工 程 引用格式:江欣俞,李晓会,秦若婷,等 基于图神经网络的兴趣点推荐的隐私保护框架 科学技术与工程,():.,():.基于图神经网络的兴趣点推荐的隐私保护框架江欣俞,李晓会,秦若婷,张爱(辽宁工业大学电子与信息工程学院,锦州)摘 要 传统的基于图神经网络的兴趣点模型的研究是通过简单的注意力机制进行权重定义,或仅仅将多种因素简单进行线性组合,缺乏从多角度考虑用户和兴趣点自身的语义信息和交互信息。此外,现有的图神经网络推荐依赖于图结构信息的集中式存储和训练,存在隐私泄露风险。为了解决上述问题,提出基于图神经网络的兴趣点推荐的隐私保护框架(
2、,)。首先,通过引入多特征模式和注意力机制对图结构进行强化,构建强化用户社交关系图模型;其次,通过多场景角度提出兴趣点邻居结点采样算法以及重新设计卷积聚合机制,对异质图使用语义级别注意力机制进行聚合;最后,提出了可变动态梯度的客户端差分隐私算法,达到边优化边反馈的效果。通过在 和 不同的数据集上进行大量实验,证明该方案具有有效性,弥补了图神经网络推荐因隐私威胁带来的局限性,优于集中式图神经网络推荐方法,同时也优于传统兴趣点推荐方法,并且 可以更好地克服推荐中的数据稀疏和冷启动问题。关键词 隐私保护;兴趣点推荐;图神经网络;联邦学习;差分隐私中图法分类号;文献标志码 收稿日期:;修订日期:基金项
3、目:国家自然科学基金青年科学基金();辽宁省应用基础研究计划()第一作者:江欣俞(),男,汉族,辽宁丹东人,硕士研究生。研究方向:大数据安全、隐私保护。:。通信作者:李晓会(),女,汉族,辽宁盘锦人,博士,副教授。研究方向:网络安全、信任管理、隐私保护。:。,(,),()(),;大数据时代,移动定位技术和移动设备快速发展,如智能手机、智能手表,产生了大量的位置交互数据,并且被用于各种场合,使得基于位置的社交网络(,)在实际应用中逐渐发展起来,如 和 以及国内的饿了么、滴滴等都是使用基于位置的社交平台。与此同时,随着热门应用的日活用户达到上亿级别,日上传量为上千级别的爆炸式增长,给用户带来了信息
4、过载的难题,因此推荐系统的出现使处理此类信息过载方面发挥了重要作用,用户通过投稿网址:在学校、餐馆、景区可以进行签到形式的评论,这就产生了下一个兴趣点推荐服务,这类服务通过挖掘 中用户与地点之间丰富的签到关系,可以有效地推荐兴趣点,提升用户体验。最近,图神经网络(,)模型的繁荣为学习结点嵌入提供了强大的框架,在捕捉兴趣点(,)结构依赖性方面具有很大的优势。因此,国内外研究者提出了多种通过 解决 推荐相关问题的方法,例如 等设计了一个相似函数通过表示学习来构建 转换图,在转换图上使用图卷积网络来丰富每个 的表示,将学习到的图合并到序列模型中。等提出了一种用于预测用户将访问的下一个 类别的神经网络
5、,通过利用递归神经网络(,)和图形神经网络,并将它们结合在一个新的架构中,它还将时空属性关联起来,将 类别视为主要上下文信息,并通过递归和基于图神经网络的组件相结合。等通过图神经网络的地理结构进行推荐,为用户推荐合适的新的,利用了协作顺序和内容感知的信息进行 建模。然而,以上现有的研究主要是针对 自身结点的特征,如地理、空间等信息或者考虑 之间的关系,而忽略了来自用户社交方面的复杂交互信息。为了缓解以上研究导致 推荐的冷启动问题和推荐的准确性,通常研究者引入社交关系信息同时进行建模。最新的研究是 等提出在社交图中连接的用户可能有不同项目上下文问题,同时在建模社交图和项目中,存在多个关系角度时,
6、提出了一个新的框架来解决在进行社会推荐时的社会不一致问题。等提出了动态位置图神经网络,这是一种考虑离线用户在活动中通过特定到达时间的限制构成 推荐模型,使用多边缘图来考虑用户访问历史的动态,通过用户图和 图的空间动态图之间的相关性来预测用户的下一个位置。虽然目前研究已经在推荐中将社交关系图结构进行引入,但是在社交图结构中仅仅将简单的注意力机制来确定权重,缺乏精确的对用户、和其他辅助信息复杂交互方法,没有分析图结构中的多种特征,因此现提出强化用户社交关系图,即考虑社交中邻居结点特征和 复杂结构特征,并它们进行合并,生成目标结点的潜在的特征,又对异质图进行语义方面处理。在最近,等提出了一种基于异构
7、图注意力网络的嵌入模型。通过构建用户兴趣点异构图,统一捕捉地理影响、社会关系和历史签到影响,并且使用基于 的模型来学习下一个要选择的 的类别权重,但是模型没有充分考虑 图结构邻居的数量趋于不平衡的问题,没有将时间和空间距离维度考虑进去,因此针对此问题,现提出了多场景角度考虑提出 邻居结点采样模块,充分利用图结构信息,包括时间和空间,提高了训练的效率和推荐的准确性。虽然在用户融合图结构方面取得很好的成就,但这些现有的 推荐方法通常都是存储整个用户 数据、历史行为序列以及提取相关特征来训练 模型,这要求数据都是集中式的存储和训练。也就是说,所有用户的数据和推荐模型都集中管理,推荐人的训练和预测都在
8、功能强大的推荐服务器上运行。然而,这种 推荐带来了 种实际问题,其一,为了快速和准确地响应客户端进行推荐,在服务器上需要存储和处理大量的数据,会占用大量的存储空间和消耗大量计算资源,在经济上和设备方面是有限的;其二,集中式 推荐依赖于通信的稳定性,网络质量和通信问题无法保证,会出现离线场景,尤其在偏远地区的场景下,这种缺点尤为显著;其三,与用户交互的数据,如用户 图是高度敏感的,由于它们不仅包含结点特征和标签,还包括图原始结构信息,因此可以通过如结点成员推断和边缘盗窃等方式对集中式存储进行攻击,将出现用户的隐私问题和数据泄露风险。例如,在位置推荐中,通过训练用于相似用户推荐的,可以通过预测判断
9、出用户之间存在的关联信息。另一个例子是,在新型冠状病毒肺炎()患者经过的位置图和社交图上训练的 来预测疾病的传播,可以被社区当作重要防控手段,但对手可能恢复用于训练的每个患者的属性和社会活动,从而造成了患者的信息泄露。在实际应用中,很难具有一个完全可信的服务器。于是,在这些隐私问题的介绍下,一个分布式多端兴趣点推荐方案被提出,这种方式可以更好地解决服务器不信任的问题和数据集中式存储等问题。关于数据隐私问题可以使用联邦学习方法,用户的数据可以存储在每个客户端,而只需要上传所需要的随机梯度下降(,)来更新服务器上的模型即可。对于联邦学习推荐系统,用户 交互被存储为本地客户端,客户端只上传梯度用来更
10、新用户 嵌入。此外,等提出了一个联邦学习框架,用于下一个 推荐。然而框架对于存储和计算来说仍然是资源密集型的,因为中央服务器负责收集和聚合本地训练的模型,以及需要将聚合的模型重新分发给所有用户。此外,所有用户共享相同的全局模型,忽科 学 技 术 与 工 程 ,()投稿网址:略了用户社交关系和兴趣的多样性,导致性能不理想。综上所述,传统的基于图神经网络的 推荐算法,没有全面地考虑用户交互的结点和边的共有特征信息并且没有结合具体的场景信息,仅仅通过传统的随机采样和均值聚合算法处理特征,挖掘图结构信息不完善,导致匹配度不精确,在稀疏数据中尤其明显;同时传统的基于差分隐私的联邦推荐分配的隐私预算具有不
11、灵活性和不可靠性。所以现提出基于图神经网络的兴趣点推荐的隐私保护框架(,)。该框架全面考虑用户的结点特征、复杂特征、签到次数、共有边等特征信息,之后通过多场景角度考虑,提出 邻居结点采样模块。对用户和兴趣点交互的异质图使用语义级别注意力机制聚合,同时将以上结构融合到一种新的 推荐范式基础上,提出可变动态梯度客户端差分隐私算法,对隐私预算进行自适应分配策略,提高 推荐的准确性的同时更高效地进行隐私保护,降低开销,增强实用性。相关工作原理.差分隐私差分隐私技术(,)是指在操作数据集时,可以保护数据集中被操作的个体记录的一种加密技术。保证了具备最大背景知识的攻击,敌手无法推断出已经发布模型中任何个体
12、信息。差分隐私技术在联邦学习中也存在广泛的研究,在对梯度或模型进行联邦化时,通过使用差分隐私技术来提供隐私保护。首先定义一个数据集 和仅相差一条记录的数据集,当敌手使用随机响应函数 对数据集分别进行查询时,对查询结果分别引入噪声进行干扰,如式()所示,使得最终输出的查询结果()与()概率相近。所以,尽管敌手拥有最大的背景知识,也不能根据查询结果推断出所相差的一条记录是否包含在 中,保护了 中的隐私问题。()()()式()中:为查询的数据集;为查询所使用的随机响应函数;()为将噪声 添加到查询响应的随机机制。定义 差分隐私。对于一个随机算法,()是 的所有可能查询输出结果的范围。如果算法 所作用
13、的相邻数据集 和 上输出任意子集 (),如果存在如下等式,则称算法 满足 差分隐私,表达式为()()()式()中:为隐私预算,是用来控制隐私保护的强度。值越小,作用在相邻两个数据集 和 上,则查询响应值()与()的概率分布越相似,说明此算法对隐私保护性越优秀。定义 本地化差分隐私(,)。传统的差分隐私是将多源的数据集中到一个可信的第三方,然后对计算结果添加噪音,实施差分隐私。但是这种可信的第第三方很难实现,因此就出现了本地差分隐私。本地差分隐私为了消除可信数据中心,在被第三方服务器收集之前,直接在每个用户所在的客户端的数据集上加入噪声,然后将加噪后的数据传到第三方服务器进行聚合操作,这样在发送
14、到第三方之前就已经实现了隐私保护。假设其中一个用户为,给定隐私算法,任意输入两条记录 和 若满足如下等式,则称为满足 本地化差分隐私,即()()().推荐场景下联邦学习在联邦学习中,客户端用户 保存本地数据集,所有的用户共享相同的模型。每个客户端会和推荐服务器 建立安全的通道,用户的个数为。具体的训练过程如下。步骤 用户 根据本地隐私数据集对模型 进行训练,计算得到梯度值。(,)()步骤 用户 将 上传到推荐服务器上。步骤 服务器 将聚合所有用户上传的梯度向量,采用的是加法聚合。()步骤 服务器 将聚合后的结果 回传给所有的客户端,并计算平均值,同时更新本地的模型。()式()中:为学习率。通过
15、一轮更新之后,用户通过判断本地模型的准确率是否满足要求,如果符合要求就不进行下一次训练,否则进行下一轮训练。.兴趣点领域相关概念定义 兴趣点。具有唯一标识的描述性的特定地点,一个 可以是一个学校、一个公交站。由兴趣点、经度和纬度的三元组表示(,)。定义 签到记录。一般由签到的用户,签到,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:的兴趣点以及访问时间的四元组(,)组成,表示用户 在时间 访问签到了 ,表示用户 在 时刻截止时签到 的总次数,定义此记录为。定义 签到序列。由用户每次访问 签到的序列,以(,)有序序列表示。定义 图。用户的签到历史是用户访问过的 的序列,在用户
16、的签到历史中,构建 图 (,),其中 是图 中边的集合,表示距离的集合,表示 集合,如图 所示。边集 表示用户在访问 的 之后连续访问下一个 的 所形成的边,只要用户访问的两个 之间的时间间隔在指定的阈值范围内,则这两个 之间就存在一条连线,连线中的 代表两个 之间的距离。图 图.定义 用户 图。定义用户集合 ,和定义 点集合 ,构建一个二部图 (,),如图 所示,表示用户 和兴趣点 之间的交互信息,其中 是图中边的集合,表示用户 在签到历史中访问了 的 点,表示用户对 访问次数的集合,表示用户 对 访问的次数,表示用户总数,表示 总数。定义 用户用户图。通常被称为社交关系,通常用 (,)表示
17、,如图 所示,描述用户的社交关系,和 都签到了至少一个相同位置,则将两个用户连接起来。其中 表示用户 和用户 之间相连接的边,则代表用户与用户之间关系的权重,表示用户 和用户 之间关联程度,值越大,说明用户与该用户的关系越大,去过的地点越相近(通过先前属性确定为重要的参照)。.图神经网络随着互联网计算能力的高速提升,现实世界中图 用户 图.图 用户用户图.的数据集通常用图来表示,如社交、金融或交通网络结构,使得能够整合信息的拓扑结构节和点信息的图神经网络技术得到了广泛的关注,如交通预测、推荐系统、药物发现和图分类等,是一种基于图特征的图表示学习,能够对非欧氏空间的数据进行建模,以点到端点的方式
18、获取数据的内部关系,在图数据学习方面具有优异的性能,因为可以获取到用户和 之间以及其他特征的高阶交互,进而提高推荐的多样性和准确性。在传统方法中,只考虑一阶连通性,缺少高阶连接性会在很大程度上损害推荐性能。相比之下,基于 的模型可以有效地捕获高阶连接性。例如,吴国栋等在对 模型进行深入研究的基础上分析了 推荐过程,并从无向单元图推荐、无向二元图推荐、无向多元图推荐 个层面进行了阐述,并提出未来 在推荐领域的相关方向。图神经网络的推荐主要是通过获取用户之间,之间以及用户与 之间的交互的结构来反映结点之间的联系,通过对结点和边的特性提取聚合,连续迭代的过程。定义 图神经网络。图网络结构是推荐系统数
19、据的天然组成形式,兴趣点推荐中的交互数据可以由用户和 之间构成的各种图结构表示,能够通过图结点之间的消息传递来获取图的依赖关系。的主要思想是如何从邻居结点中迭代科 学 技 术 与 工 程 ,()投稿网址:的聚合特征信息,并整合将聚合和当前中心结点表示整合。在整个网络将消息前向传播过程分为两个阶段:消息聚合()阶段和消息更新阶段()阶段。阶段是通过使用聚合器收集和聚合邻居信息,阶段使用更新器将中心结点和邻居的消息进行合并,最终得到目标结点的表示,依次获得每一个结点隐向量表示,感知其他结点的特征。如式()表示状态的更新方式,式()表示对更新完的结点状态进行输出。,()(,)()式中:()为局部转移
20、函数;()为局部输出函数;为输出结果;为当前结点的隐向量;为当前结点 输入的特征,为对于结点 相连的边的属性;为结点 更新前的状态;为结点 的相邻结点的特征。对于式()、式()表示的只有一个结点进行更新的操作,使用的图都为多结点,为了简化上述公式使用式()和式()进行通用,表达式为 (,)()(,)()式中:为图中所有结点的此时状态;为边的特征;为将所有结点输出之后的最终结果;为所有结点的特征;()为全局转换函数;()为全局输出函数。当对结点的状态从 到 次更新时,通过式()表示,即(,)()定义 图卷积神经网络(,)。传统卷积神经网络设计用于处理像图像这样的规则数据。然而,存在大量不规则数据
21、,如社交网络和生物分子网络。由于这些数据的分布不具有平移不变性,传统的神经网络无法提取这些数据的潜在拓扑信息。为了解决这些问题,试图通过基于图的谱分解将传统的拉普拉斯核和卷积算子转移到图数据空间中,使用切比雪夫多项式的一阶展开来拟合同卷积层,最终形成了 模型。也是一个神经网络层,层和层之间的传播方式表达式为()()式()中:为第 层的输入特征;为输出隐含特征;为线性变换矩阵;()为非线性激活函数,如、等;为自连接矩阵,定义为 ,其中 为单位阵,为邻接矩阵;为自连矩阵的度矩阵;为在自连接度矩阵的基础上平方根取逆。兴趣点推荐的隐私保护方法.系统设计思路提出 框架的总体设计思路能够用于保护基于 兴趣
22、点推荐,不仅可以享有更精确的个性化推荐,同时也能对用户的隐私加以保护。首先构建一个 图,其中每个用户通过社交关系与其他用户相连接,并通过用户签到和 相连接。使用 对所构建的图进行建模。为了构建完成的 图,提高推荐的精度和效率,通过学习来为每一个用户构建加强的用户社交关系图,具体是首先通过神经网络合并目标用户的嵌入和其他与用户社交相关的 特征,对邻居结点进行编码,然后通过注意力机制确定权重,进行自动建模生成目标结点的潜在表示,同样通过神经网络将 嵌入,根据用户 图将用户近期已经访问过的签到地点纳入采样序列,之后再提取出用户访问次数在某个阈值以上的 结点,通过 图将这些结点的相邻的邻居结点进行加权
23、采样,同时对 图中的 之间距离和时间特征引入作为采样权重的重要性,依次递归下一层结点,递归过程中所对结点的依赖等级会依次降低,最后生成采样后的 结点的潜在表示,为了解决用户图异质性的问题,使用自注意机制进行合理分配表征邻居重要性,最后通过多层感知器(,)合并目标用户和候选 的潜在表示,为了生成最终偏好分数,同时为了解决用户隐私问题,对整体模型的框架引入了联邦学习机制和可变动态梯度客户端差分隐私机制进行整体 框架的构建。整体架构图如图 和图 所示。.强化用户社交关系图模型构建为了自动构建强化用户社交关系图,对每一个用户访问过的签到地点的次数、评分、时间进行建模,同时对社交关系图进行建模,通过传入
24、到一个多层感知机模块。将社交影响纳入其中对提高推荐质量非常重要。然而,社会关系从不同的角度呈现出复杂的特征。例如,不同的社会关系对目标用户的影响强度不同。为了处理如此复杂和异构的社会关系,引入了一种注意机制来学习不同社会关系的权重,以实现社交关系中潜在的影响。用户建模部分为了学习用户结点的社交关系,通过用户 学习后的输出特征使用 进行表示,公式为(,)()式()中:为用户 的朋友 的潜在特征;,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:图 客户端框架图.图 客户端服务器交互图.科 学 技 术 与 工 程 ,()投稿网址:()为将用户 结点的所有朋友结点的潜在特征聚合起来
25、形成的一种整合函数;()为非线性激活函数,如线性整流函数();为神经网络中的权重;为神经网络中的偏置值。对于用户 的朋友 的潜在特征受 个因素影响,第一个是 本身的潜在嵌入特征,使用 进行定义,第二个是与 相邻的朋友结点的潜在特征聚合结果,定义为,以及影响最大方面 与 共同相连接的 形成的边和签到的次数总和,通过,函数定义。影响最大方面定义为,(,)(,)()定义朋友 的潜在特征为(,)()式()中:、分别为 个影响因素分配的权重;为因素的串联方式。在对朋友结点的潜在因素进行分析后,将其他所有结点依次分析,但发现某些特征会受特殊情况下影响,会扰乱结果的分析,原因在于对潜在特征的处理,仅仅是通过
26、加权平均的,是无法全面捕捉复杂的社会关系,因此引入了注意力机制来训练每个结点和结点之间的影响权重,最终选择权重较大的集合继续进行神经网络的训练。将 和 两个结点之间进行注意力权重的计算,目标用户结点 不仅受到朋友结点的潜在特征,同样受自身结点的潜在嵌入特征,将所得到自身目标用户潜在特征,与计算好的朋友潜在特征,按照式()进行拼接,最后通过传入两层前馈神经网络进行训练,因此同时考虑目标用户 和朋友 结点的影响的注意力权重的计算公式为,()()式()中:、分别为当前输入层的用户结点 和用户结点 的特征表示;为一个线性变换矩阵,形状就是 ,为用户输入特征维度,为输出特征的维度;激活函数 使用 进行激
27、活。通过聚合所有的朋友结点信息时,需要对 结点的所有邻居进行归一化,通过 函数将权重的范围定义在,。归一化之后的注意力权重,才是真实的聚合系数,计算公式为,()()()()在引入注意力机制后就可以获得每个朋友对目标用户的影响权重,即可以构建强化的用户社交图结构,方便模型的建立以及更准确地进行 推荐。最后将 所有的邻居结点通过注意力学习权重和神经网络可以计算出最终表示方式为(,)()同样可以计算出用户 之间的注意力权重,用户 建模部分为了学习用户对访问过的 的签到记录,用户 学习后的输出的特征使用 进行表示,公式为(,)()式()中:为用户 的所签到的 存在的潜在特征;()为将用户 结点的所有签
28、到地点的潜在特征聚合起来形成的一种整合函数。与前面所使用的社交的潜在特征方面有所不同,这里的 潜在特征为用户 已访问 本身的嵌入特征聚合定义为,标识用户 本身的嵌入特征,表示用户 访问签到每个 的次数,公式为(,)()因此,考虑目标用户 和已签到的 的影响的注意力权重的计算公式为,()()归一化之后的注意力权重,为,()()()()最后将 所有的邻居结点通过注意力学习邻居 权重和神经网络学习可以计算出最终表示方式为(,)()在引入注意力机制后就可以获得每个用户对已访问过的 的影响权重,即可以构建强化的用户 图结构,方便后面模型的建立以及更准确地进行 推荐。.基于多场景下 邻居结点采样模型由于一
29、个点的邻居的数量趋于不平衡,这样可能会导致访问内存造成不平衡。有关图采样的最近研究是 等提出 来解决多邻居的问题,将从所有邻居中采样固定数量的邻居,这种方式减少了计算量并确保了负载平衡,具体的方式从目标结点向外逐层进行采样,因此每一层的结点表示都是由上一层结点的表示生成的,跟本层的其他结点无关,将这种采样的方式被称作为“分层邻居采样”,由于 的性能由采样时指定邻居数量的参数所决定,手动调整参数非常耗时。等提出 模型,具体采用了一种结点式采样技术,并通过向每个邻居引入重要性,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:分数对其进行了增强,由于采用了加权聚合方法,所以可以减少
30、信息损失,但这种方式提出的方法没有结合具体的应用场景,并且采样联邦图学习的客户端在图大小和计算能力方面是异构的,对所有客户端应用相同的采样策略远不是最佳解决方案。其次,现有的方法忽略了训练速度和训练精度之间的权衡,采样较少的结点加快了训练,但降低了准确性。会造成对邻居结点采样的不准确和过度性,导致在卷积的过程产生额外的开销,因此提出了一种在 场景下高效的邻居结点采样方法,具体做法是根据用户 图将用户在某个时间阈值以下已经访问过的签到地点纳入采样序列,之后通过此图提取出用户访问次数在某个阈值以上的 结点,通过 图将这些结点的相邻的邻居结点进行加权采样,同时对 图中的 之间距离和时间限制引入作为采
31、样权重的重要性,作为权重影响指标,依次递归下一层结点,递归过程中所对结点的依赖等级 会依次降低。通过这种方法构建采样模型不仅提高了推荐的准确率,也提高了通信的效率,同时此采样方法不会对训练的收敛有太大的影响。具体的算法描述如下。算法 输入 图 (,)和用户 图 (,);对于 结点而言的自身潜在特征。代码:()()()()()()(),(),(),()输出:结点的采样邻居结点,聚合后输出的特征。()算法和符号含义。上述算法描述采样的重要过程,其中深度 代表每个顶点能够聚合的邻接结点的跳数;权重映射矩阵为,非线性激活函数;表示所有用户结点集合,对 签到次数的阈值定义为;表示 总数;表示用户对 访问
32、的次数;()表示筛选出之间相邻的一阶邻居 结点;表示用户对每个 访问的次数;,()表示在()层中结点 的邻居结点 的嵌入表示;()定义为邻居结点的集合;表示在第 层,结点 的特征表示;和 的距离使用 表示;代表用户最近访问的此地点的签到时间阈值。()算法描述。首先输入某一用户结点的特征,输出具体的特征表示。对于用户 图,首先根据设定的最小访问次数阈值,遍历所有结点访问次数,筛选出用户常访问的,将一阶邻居 结点输出在列表 中,排除访问次数少的 结点,之后通过卷积操作得出第一层 的特征。依次向下一层结点遍历,针对筛选出的结点在时间阈值 以下和 距离阈值 以下的并且等级函数在值 以下的,继续筛选出满
33、足要求的结点,聚合与结点 相连的邻居 层的,得到第 层邻居聚合特征(),与结点 第 层 拼接,并通过全连接层转换得到结点 在第 层的 ,再与结点 通过设定具体的等级函数,将所在的层级 作为参数值,进行等级削减操作,当下一层级小于等级函数值,就停止采样,最后将筛选出的结点通过多层聚合函数不断地将相邻结点的信息融合在一起,达到采样目的。.采样后融合朋友关系聚合策略、是根据.节所计算得出的分别用于聚合采样用户邻居和聚合采样 邻居的嵌入。因此可以通过此嵌入标准和目标用户 嵌入来推断出最终结点的嵌入特征,但是原本的图卷积网络是针对同构图的,而 推荐里面用户和 其实是不同类型的结点,通过学习后所得到的结果
34、提供的价值并不相等,因此需要重新设计卷积聚合机制,对异质图结合自身结点进一步聚合处理,该层模型对结点的嵌入具有潜在的良好的解释性。()使用 代表用户社交图的语义注意力计算权重。()()()()()()使用 代表用户 图的语义注意力计算权重。()()()()()()使用 代表用户自身结点的 注意力计算权重:科 学 技 术 与 工 程 ,()投稿网址:()()()()()式中:、分别为用户社交注意力语义、用户 注意力语义、结点自身的注意力语义;、为此处模型需要训练的参数;为语义级注意向量。公式含义是进行变换将形状调整到一维标量转化为概率形式。最终得到 结点的最终嵌入特征为 ()式()中:为目标用户
35、预测的嵌入特征,本地客户端保存其特征,可以为接下来从服务器中下载下来的 嵌入 和用户嵌入 进行预测。.预测()使用本地用户 评分值,通过使用损失函数对 和真实值 之间的均方根误差()来优化预测。(,)()()()()式()中:()为用户 对 的感兴趣的评分值;为本地的损失值。.隐私保护策略可变梯度客户端差分隐私由于梯度会泄露原始数据信息,客户端需要在上传到推荐服务器的过程中做强噪声扰动处理,使推荐服务器无法推出原始的数据。根据文献提出将局部差分隐私应用于本地梯度,即将带有梯度边界值 的 范式进行局部梯度裁剪,同时将具有零平均拉普拉斯噪声的 模块应用于统一梯度,以实现更好的用户隐私保护。这里使用
36、了 种梯度,一种是用户嵌入梯度,一种是 嵌入梯度 以及模型梯度,将这些梯度结合起来,形成用户 的整体梯度为(,),根据损失来获得模型的梯度、嵌入梯度 和,代表客户端用户 的训练参数,通过 进行更新,其中 为学习率,公式为(,),()式()中:为随机梯度;表示在剪枝边界 限制下进行梯度裁剪;为敏感度;为用户 的隐私预算,由于当处理不同幅值的梯度时,稳定噪声强度是不合适的。不同参数的梯度幅值在训练过程中会发生变化。因此,这里提出隐私预算的自适应分配策略,即根据各自的隐私参数对梯度进行 处理,主要通过各个客户端梯度 来调节隐私预算值。客户端 通过历史隐私参数序列(,)进行神经网络预测得出下一次将要传
37、递给将要推荐的服务器的隐私预算值,推荐服务器收集到梯度同时也同时收集到各参与方的隐私预算值(,),根据差分隐私 定理可知,选择出整体提供的隐私保护水平在序列中最差值,即隐私预算的最大者,因此选择出客户端最大的隐私预算值,通过这种边优化边反馈的状态,使得整体策略更具有灵活性和可靠性。.选取部分客户端进行梯度聚合推荐服务器从客户端上传梯度,以更新模型参数和嵌入,从而优化模型。在每一次迭代时服务器会和采样的客户端进行建立连接,客户端聚合本地截止上次访问的记录产生的历史梯度,公式如下。|()式()中:为采样的客户端参数;为客户端浏览 历史记录总数;、分别为客户端的用户平均聚合梯度更新、模型梯度平均聚合
38、更新、梯度平均聚合更新;为聚合后服务器使用梯度下降更新参数。实验分析.实验环境及数据集.实验环境实验采用.开发平台,实验使用的操作系统为 .,配备 为().的服务器上进行。本文模型是基于深度学习框架 进行开发,版本为.。采用 语言实现模型,运行环境是。.实验数据集实验采用了推荐算法中被广泛使用的权威公开数据集:和,通过这两个真实数据集进行算法验证。其中 数据集来自一个美国最大的点评网站,通过移动设备的位置来提醒用户签到。数据集为斯坦福大学研究人员在,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:平台上获得的在全球范围内生成的真实的签到数据,提供了基于位置的服务。这些数据集都
39、由社会关系数据和签到数据构成,有利于生成图结构并且有利于实验分析。其中社交关系数据的数据项主要包括用户标识、用户好友标识。签到记录的数据项,主要包括用户标识、签到时间戳、兴趣点经纬度和兴趣点标识。此外 数据集还包括兴趣点评论信息、用户签到行为等其他数据信息。在这两个数据集中,为了确保数据的有效性,需要筛掉那些签到记录少于 条的用户和记录少于 条的,最终得到两个真实数据集统计信息如表 所示。表 和 的数据集参数 数据集用户数 数 签到数量 好友关系数量 在实验中,首先将两个数据集随机均分成 份,作为参与训练的 个客户端的本地数据集,并分别拥有 个数据子集的客户端标记为 。使用双层图卷积神经网络(
40、)作为 模型,并使用点积实现评分预测。通过图神经网络学习的用户和 嵌入及其隐藏表示是 维的。梯度剪裁阈值设置为.,模块中的拉普拉斯噪声强度初始化设置为.,以实现差分隐私初始化。数据集中 作为训练集、作为验证集、作为测试集。在实验中,使用标准高斯分布初始化参数,等级函数初始化为,对于 中使用的技术,梯度剪裁阈值设置为.,拉普拉斯噪声强度设置为.。其他超参数通过网格搜索进行调整嵌入大小设置为,用户每轮训练的批次大小为,学习率定义在.,.,.,默认情况下 作为度量计算,用户维度和 维度设置为,用户结点和 结点的相连长度大小为。.评估指标为了评估性能并进行比较,使用了度量评估模型,包括召回率、精确度,
41、以及归一化折损累积增益对 推荐的结果在不同角度分析来评估排序结果好坏的指标。采用均方根误差()来衡量模型性能,是结合社交推荐中最常用的指标,值越小,表明测试数据的性能越好,计算公式为 ()()()()式()中:和 分别为对于 用户对兴趣点 的真实评分值和预测评分值是用于测试的用户总数;为测试的用户总数目;()为用户 所对应将要评估的。评估是在本地客户端上进行的,因为服务器无法访问本地隐私数据。.对比方法将 与以下基线方法进行比较,包括集中式推荐方法和最先进的客户端上推荐方法以及融合社交方面的推荐。()。社交矩阵分解,充分考虑社交网络关系。()。假设用户彼此拥有隐含的社交连接,并尝试通过图嵌入方
42、法提取语义和可靠的社交信息。()。使用图神经网络从邻居结点学习用户嵌入和项目嵌入,并使用几个全连接层作为评分预测。()。修改了图形神经网络以缓解社会推荐中的不一致问题。()。是一种基于图神经网络的方法,通过将用户结点初始化为,从社交图中学习向量,以获取社交信息。()。是一个分散的 框架,为了克服数据稀疏性问题,通过客户端模型从当前用户的邻居通过随机游走的方式学习。()。是一种最先进的模型,明确利用了连续和非连续值的相对时空信息。提出了一种个性化项目频率的双注意力架构,其中第一层聚合时空信息,第二层将目标与所有签到匹配。()。是一个采用师生培训策略的设备框架。使用云上的公共数据训练基于教师 的模
43、型,并将压缩后的模型发送到终端设备进行本地模型训练。通过这种方式,终端设备保持为私有。()。是下一个 推荐的联合学习框架。首先,用户使用各自的签到数据并行地在本地训练个性化模型。然后,第三方服务收集并聚合与用户无关的多维参数,以构建联合 推荐模型。然后,将联邦模型发送回用户。()。另一种基于安全矩阵分解的隐私保护推荐方法,采用分布式矩阵分解方法,并使用同态加密方法来避免信息泄漏。()。联邦图神经网络是最先进的联邦推荐方法,采用局部差异隐私方法来保护用户与项目的交互。.实验结果分析通过对不同模型进行了全面比较,所得实验结果如表 所示,分为 个角度(考虑社交关系的 科 学 技 术 与 工 程 ,(
44、)投稿网址:表 不同方法在 方面的性能对比 数据集.情况、考虑联邦式 推荐、考虑图结构情况下的 推荐)。有以下观察结果。在所有数据集中的表现都明显优于其他情况下的联邦推荐场景。在 上的平均改善有所提高,与 相比,强化的社交关系图构建和异质图注意力聚合以及融合地理空间采样有利于推荐效果的提升。属于最先进的 模型,由于通过一致的邻居聚合来增强 以进行社会推荐,因此在 方面有很大的提高。基于 的模型更好,因为可以根据属性相关信息,构建模型结构信息,无论是社交关系图还是用户 异质图,明显优于,说明基于 的模型优于传统的 方法。也是基于 模型,其中引入其他场景通过高效率的采样方式和关系注意,这使与传统的
45、 的推荐性能更有优势。通过简单的图模型 模型是优于 模型,可以看出与集中式相比,联邦学习的性能会有所下降,原因在于 模型联邦学习框架无法访问本地数据,尽管传输也是加密数据,在通信和构建模型产生了一定的限制。在与 相比,本文方法具有明显的优势,需要手机和聚合用户的个性化模型,从而使用户的隐私存在暴露的风险,因为 提供了更强的隐私保护和更准确的推荐,同时减少了对推荐服务器的压力。如图 所示,通过对不同的噪声强度 和不同的梯度裁剪边界值 的变化,在不同数据集分析对均方根误差变的化趋势,可以看出,当噪声强度相同的时候,均方根误差会随着裁剪边界值的增大而增大,模型的性能也会随着下降;裁剪边界值为同一个值
46、时,随着噪声强度的增大而上升。通过 和 两个数据集实验结果比较可以看出,的整体测试数据达到的性能更好。通过实验可以选出更好的参数值,噪声强度为.、裁剪边界值为.的设置更好,在两个数据集的 分别可以达到.和.。因为对于下一级别数值和本级别数值差别不大,在不牺牲模型性能的情况下实现更好的隐私保护,以实现隐私保护和推荐准确性之间的良好平衡。通过实验结果如图 所示,为客户端设置不同的隐私预算值,随着客户端的梯度不断迭代,隐私预算 会逐渐趋于平衡,达到稳定的状态。对于第一个角度,将完整的 框架与不包括所设计的用户强化社交图集成()进行比较(未考虑社会方面用户结点集成),结果如图 两个数据集在不同的噪声强
47、度和梯度裁剪情况下的 性能.图 隐私保护变化趋势.,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:图 和图 所示。图 中,完整框架明显优于变体,证明了社会影响在 推荐中的重要性,在召回率、图 社交建模在整体模型中的影响对比.图 注意力采样结构在整体模型中的影响对比.归一化折损等积增益、精确度中指标上升了。对于第二个方面,将完整的 框架与一个变体()进行比较,该变体使用简单的平均聚合策略来组合朋友结点的表示,而不是采用注意力机制和采样机制。从图 中可以观察到,注意力机制和采样策略确实明显优于平均聚合策略,在召回率、归一化折损累积增益、精确度中指标上升了.。此外,通过比较图 和
48、图,可以看到过去使用了最简单的平均策略,所提框架在考虑社会网络信息的情况下改进了变体,引入采样注意力机制,证实了建模社会影响的有用性。结论与展望移动 为生活提供了便捷性,但同时数据收集困难和 构建特征的单一性,大大降低了 推荐系统的性能,同时隐私问题和网络连接问题也对 推荐方面产生很大程度的影响。提出了一个新的基于 的 推荐框架,称为,用于结合社交关系的兴趣点推荐,通过充分利用共同相连边的信息和签到总次数等特征构建强化用户社交关系图,同时构建了一种新的融合了多场景的 邻居采样算法以及重新设计卷积机制对异质图使用语义注意力机制进行聚合,通过这种方式有效降低了在 场景下推荐的误差,提升推荐结果的准
49、确性;在此模型的基础上,提出了可变动态梯度客户端差分隐私进行算法在联邦场景下的优化,更高效地保护用户隐私不被泄露。在两个真实的数据集上进行广泛的实验,通过代表性的基线进行比较,实验结果证明了所提框架在 推荐中的优越性。至于未来的发展方向,可以针对客户端之间数据分布的差异,使用数据增强等方法使客户端数据更相近,进而减少传输模型的数据大小,同时加快模型训练的收敛速度,也可以在更详细的场景下充分利用 特性进行进一步的结合研究。参考文献 郑捷,杨兴耀,李想 基于 的推荐系统研究可视化分析 科学技术与工程,():.,():.,:,:.科 学 技 术 与 工 程 ,()投稿网址:,:,:,:.,:,():
50、.赵丽坤,王于可 基于人工智能的社交网络用户行为数据周期推荐算法 科学技术与工程,():.,():.,:,:.,:(),:,:.,:,(),:,:.,:.,:.,:,():.,:.,:,():.刘凯,韩益亮,郭凯阳,等 基于密度的噪声应用空间聚类算法的差分隐私轨迹保护机制 科学技术与工程,():.,():.,:,():.,(),():.,:,:.吴国栋,查志康,涂立静,等 图神经网络推荐研究进展智能系统学报,():.,():.,:,():.,:.,:.,:,:.,:,:,:.,:.,:(),:.,:.,:.,:.,:,:.,.,:,:.,:.,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保