基于张量分解嵌入的时序知识图谱推理.pdf

资源描述

1、第卷第期年月北京信息科技大学学报（自然科学版）（）文章编号：（）：基于张量分解嵌入的时序知识图谱推理刘伟，谢璐钧，张智慧，陈亚繁（北京信息科技大学自动化学院，北京；北京航天智造科技发展有限公司，北京）摘要：针对现有时序知识图谱推理中外推方法没有充分利用时间信息的问题，受张量分解模型的启发，提出将关系嵌入分为静态和动态（时序）个部分，并通过头实体嵌入、关系嵌入和所有实体嵌入之间的双线性评分函数，计算得到对象实体的概率，从而预测对象实体。最后，在个数据集上的实验结果验证了该方法的有效性。关键词：时序知识图谱；表示学习；张量分解中图分类号：文献标志码：，（，；，）：，（），：；

2、收稿日期：基金项目：国家重点研发计划（）；北京信息科技大学校科研基金项目（）作者简介：第一作者通信作者：刘伟，女，博士，讲师。引言知识图谱可以看作是由多个三元组组成的语义网络，主要用于描述现实世界中实体、概念或事件之间的关系。传统用三元组表示的语义网络，其表达的关系往往是静态的，然而在实际使用场景中，实体之间的关系通常会随着时间的推移而变化。因此，学者们提出构建四元组形式的知识网络，也就是为原始三元组多分配一个额外的时间变量。加入时间属性的知识图谱被称为时序知识图谱（，）。关于时序知识图谱的推理，目前较为流行的方法是基于嵌入的推理方法，即将实体与关系转换为嵌入表示来进行推理。表示学习模型可

3、分为平移距离模型、语义匹配模型以及神经网络模型。其中，平移距离模型使知识图谱中的头实体、关系以及尾实体向量满足平移距离约束。典型的模型如，使用和范数衡量两实体之间的距离，实现使头实体向量和关系向量的和贴近尾实体向量的目的，在处理复杂关系时实体区分性较低。为解决这个问题，将头尾实体分别投影到关系所在的超平面。上述方法虽效果有所提升，然而因为引入空间投影，导致参数增多，复杂度变高。语义匹配模型使用基于相似度的评分函数来计算实体和关系的语义联系。典型的模型有，它通过低维的实体矩阵和低维的关系矩阵乘积的形式，来判断每个三元组成立北京信息科技大学学报（自然科学版）第卷的可能性。为克服模型过拟合

4、的问题，将原关系矩阵转化为对角矩阵。近来的模型，将一个三阶张量分解为一个核心张量每一维度乘上一个矩阵作为评分函数。神经网络模型是使用深度神经网络的表达能力，进行实体和关系的特征学习。典型的方法如，用一组神经网络的参数来表示关系。另外，对实体和关系的向量进行二维卷积操作，来建模实体间和关系间的交互；通过图卷积神经网络将实体的邻域信息进行聚合，来更新实体的嵌入表示。近几年提出的、以及等模型也是基于神经网络的方法。目前关于时序知识图谱嵌入方法的研究可分为内推与外推，其中内推是补全部分事实已知的时序知识图谱序列所缺失的事实，而外推更多关注于时序知识图谱的预测，即通过已知事实来预测未来的事实。

5、现有的时序知识图谱表示学习模型，如可以基于历史事实来识别可能重复发生的事实。然而，在类似方法中，中四元组的嵌入并没有充分利用时间信息。中的关系具有不同的时间特性，具体可以分为静态属性和动态属性。受其启发，本文将关系的张量嵌入分解为静态和动态（时序）部分，同时将上述关系和实体张量嵌入的乘积作为模型的评分函数，对模型进行训练，得到模型的各个张量嵌入表示，所提方法可称为分解张量嵌入序列网络（，）。最后，通过对比实验验证了该模型的有效性。分解张量嵌入序列网络时序知识图谱可以看作是四元组（头实体，关系，尾实体，时间戳）事实的集合，将四元组记为（，）。实体集合中，元素数量为

6、，张量嵌入的维度为。和分别对应头实体和尾实体，；对应关系，关系集合中元素的数量为，；对应时间戳，时间戳集合中的元素数量为，。定义是时刻时序知识图谱的事实集合，这样可定义整个时间范围的时序知识图谱，其中，。另外，对于在时间步骤的每个头实体和关系，定义了特定于（，）的实体集合子集，它包括了发生在之前的时序知识图谱集合，可作为尾实体，与头实体和关系及当时时间戳构成四元组事实的实体集合，通过对事实集合进行维多热（）向量表示，得到指示向量（，）称为历史词汇表。本文所提出的模型使用分解张量嵌入的双线性函数，同时结合历史词汇表的指导作为评分函数，通过训练四元组各元素的嵌入以及

7、相关网络参数，使有效的四元组比无效的四元组得分更高。训练完成后，使用上述评分函数来推断确定四元组事实的可能性。具体地，在四元组事实的有效性得分判定之后，通过分数排序确定在给定时间的事件中预测缺失实体的最大可能，例如（，？，）表示给定头实体、关系和时间戳，预测尾实体；或者（？，）表示给定关系、尾实体和时间戳预测头实体。对于预测缺失实体，该模型假设既可以从历史事件中得到结论，即已经发生过的事情可能重新发生；也可以从历史事实中推导结论，即发生以前没有的事实。对应地，模型中构建了种推理模式：复制模式和生成模式。前者实现从历史词汇表中预测出一个对象实体，后者则从整个实体集中预测出一个新的对象实体。历史

8、词汇表构建首先，通过检查在某时刻是否存在可与头实体和关系构成四元组事实的尾实体来构建历史词汇表。如果存在此事实，则将词汇表中对应的实体设为，否则设为，这将形成一个独热（）向量。在整个时间段上执行上述操作，可形成多个时刻的历史词汇集（，），（，），（，），（，）是一个维的多热指示向量，它包含了在事实集合中所有可与头实体和关系构成四元组事实的尾实体集合。本文按照时间顺序，与递归的方法类似，按照式（）所示的方式，通过增量维护历史以前所有时刻的词汇表。在训练过程中形成的历史词汇表，是包含了所有历史词汇（包含新生成的词汇）的新集合（，），它将被用于评估所提模型在验证集和测试集中的性能。该集合的构成

9、方式为（，）（，）（，）（，）（）四元组的分解张量嵌入时序知识图谱中，实体、关系和时间的张量嵌入维度分别为、和。设训练时一个批次的四元组数量为，为了便于对每个批次进行分解张量嵌入网络的训练进行介绍，将每个批次的张量嵌入的定义具体为该批次的张量值，即实体张量嵌入为、关系张量嵌入为和时第期刘伟等：基于张量分解嵌入的时序知识图谱推理间张量嵌入为。由于关系具有时间属性，可能会随着时间发生变化，即对于同一个对象实体，在不同的时间对应的关系和实体可能不同。因此，模型在评估实体间关系时，将关系视为时变的。然而，并非所有的关系都会随时间而变化，因此，模型将关系张量嵌入分解为静态关系张量嵌入和

10、动态时间关系张量嵌入的叠加。其中，动态时间关系张量嵌入可表示为动态关系张量嵌入与时间张量嵌入的哈达玛（）积，即。设时间基张量嵌入，令为和当前时间戳的乘积。则时序知识图谱的关系张量嵌入可计算如下：（）式中：第一部分是通过初始化静态关系张量嵌入并学习不同时间的事实集合得到的；第二部分是动态关系张量嵌入和时间张量嵌入的哈达玛积。它也需要先对模型进行初始化，并根据不同时间的事实集进行学习后获得。复制模式复制模式结合历史事实的发生概率来预测未来可能重复出现的事实。以预测缺失的尾实体为例，如果历史词汇表（，）中出现了某尾实体，则预测结果中该实体的估计概率将被增加。首先，利用双

11、线性评分函数得到头实体、关系矩阵和整个实体集之间的相关性。是一个维向量，表示对应于所有实体的嵌入张量，。（）由于复制模式需要考虑历史事实的影响，所以模型将历史事实中不太可能出现的对象实体的评分值修改为较小的数值。具体地，将评分函数加上（，），（，）是将历史词汇表（，）中未出现的实体的索引所对应的值改为一个无限小的数值（如），这是因为如果将该无限小数值设为，则通过归一化指数函数函数可计算出，出现实体和未出现实体的概率差异大于个数量级，这将对出现和未出现实体的概率实现有效区分。最后，使用函数获得历史词汇表中的尾实体的概率。（，）（）（）（）生成模式生成模式是复制模式的补充。由于待预

12、测实体也可能出现在历史词汇表中已存在的实体之外，因此需要构建新的模式来预测它们。与复制模式不同，生成模式的尾实体是整个实体词汇表，生成的预测实体不需要参考历史事实，可以直接视为新实体。生成模式同样使用双线性模型来获得头实体和关系矩阵和整个实体集间的相关性，用一个维向量表示。（）由于生成模式不考虑历史事实，所以无需对历史词汇表进行修改，直接通过函数得到从整个实体词汇表中生成尾实体的概率。（）（）学习目标给定预测范围的实体预测可以视为多分类任务，其中每个分类对应一个实体。因此，所提模型的学习目标是对训练期间存在的所有事实最小化以下交叉熵损失。（，）（）式中：表示时刻时序知识图谱中的第个

13、尾实体标签；（，）表示当尾实体标签为时，实体集中第个实体的预测概率值。推理为了对四元组（，？，）中缺失的尾实体进行预测，复制模式和生成模式都给出了相应的预测结果，但两者的预测对象都是整个实体集。因此，为了保证实体集中所有实体的概率之和等于，引入了一个系数，来调整复制和生成模式之间的权重，通过对种模式得到的概率值，如式（）和式（）所示，进行加权求和，得到整个实体集中所有实体的预测概率值。最终的预测对象将是组合概率（，）最高的实体。（，）（）（）实验实验在个公开数据集上验证该模型的有效性。首先阐明实验的配置，包括实验环境及实验参数设置，然后对实验结果进行讨论。实验配置本文实验使用

14、中央处理器为（）（），显卡为的硬件配置。所提出的模型使用相同的个基准数据集进行测试。这个数据集分别是：，一个关于时间、语言和语调的全球数据库；维基百科的子集和的子集北京信息科技大学学报（自然科学版）第卷。表展示了个数据集的统计量。个数据集根据时间顺序按的比例分为训练集、验证集和测试集。表不同数据集的统计量数据集实体数量关系数量训练集数量验证集数量测试集数量时间粒度时间戳数量将所提出的模型与目前较为流行的模型，如、等进行了性能对比。本文选取平均倒数排名（，）、和对模型的性能指标进行度量。其中，代表在链接预测中排名小于的三元组的平均占比。在测试时，针

15、对所提出的模型评测，还使用了常用的过滤评价约束，即从测试候选四元组中剔除真实的四元组所对应的尾实体，同时加入未在训练集中的尾实体，以获得相关性能指标。超参数的设置取决于每个验证集的性能，如式（）中的系数在范围之间以步长为进行调节取值。经实验测试，本文在集上的设置为，和上设置为。由于超参数的选择会影响模型性能，实验选取了不同超参数值来验证模型的有效性。由表可以看出，在数据集上，本文算法在为时的性能优于。表不同超参数在数据集上的性能对比除了超参数的选取，嵌入维度的选择也会对模型性能产生影响。实验对比了嵌入维度为和测试结果，如表所示。可以看出，在数据集上的效

16、果前者要比后者好。因此，本文选择嵌入维度为进行后续实验。另外，模型选用方法进行初始化，然后使用方法进行优化。学习率设为，批大小为，训练轮次设置为。表不同嵌入维度在数据集上的性能对比嵌入维度实验结果本文所提模型与其他种模型性能对比如表所示，其中最好的结果用加粗表示，次好的结果用下划线表示。由表可以看出，本文提出的模型性能优于目前几种流行的模型。这表明，在考虑实体之间的关系时，考虑关系的时间属性会带来性能的提升。表显示，在不同的数据集上，性能的提升是不同的。在数据集上，本文所提模型性能提升优于其他基准数据集。但是这并不意味着所有预测精度的提高。从表可以看到，数据集虽

17、然整体预测效果提高，但是和的值分别下降了和。表不同模型在个数据集上的性能对比模型（本文）第期刘伟等：基于张量分解嵌入的时序知识图谱推理表本文所提模型相比于模型的性能增量数据集该模型在数据集上的训练过程中，尾实体和头实体预测的损失函数变化如图所示。可以看出，针对头实体和尾实体，在训练初始阶段，该方法就可以达到较好的效果。尤其针对尾实体，该方法收敛更快。这是因为数据集中重复的头尾实体比例不平衡，经统计得到训练集中尾实体的历史重复率为，而头实体的历史重复率为，也就意味着在预测头实体过程中，本文所提模型的复制模式将无法对重复率过高（）的头实体相关事实进行有效筛选，也

18、将无法有效降低历史上未发生事实的预测概率，这时复制模式无法发挥优势。然而，对于没有达到非常高重复率的尾实体的预测，本文所提模型将会表现出其优势。图训练过程中损失函数的变化结束语时序知识图谱的表示和推理是一个具有挑战性的问题。本文根据关系的时变特性，将关系嵌入分解为静态和动态个部分来解决这个问题。同时，本文所提模型融合了复制模式和生成模式种推理模式，既可以从历史事件中得到结论，即已经发生过的事情可能重新发生，也可以从历史事实中推导结论，即发生以前没有的事实。实验结果表明，具有时间属性的关系嵌入矩阵在预测时序知识图谱中未来事实方面具有更好的性能。进一步地，可以对历史词汇表的构建进行改进，以

19、提高模型的性能。参考文献：田萱，陈杭雪推荐任务中知识图谱嵌入应用研究综述计算机科学与探索，（）：，（）：（），：，：，：，：，：，：，：，：，：，：，：，：，：，：，杜文倩，李弼程，王瑞融合实体描述及类型的知识图谱表示学习方法中文信息学报，（）：，（）：（），：，：苏丰龙，景宁基于关系聚合的时序知识图谱表示学习浙江大学学报（工学版），（）：，北京信息科技大学学报（自然科学版）第卷（），（）：（），：，：，：，：（），：，：，：，：封皓君，段立，张碧莹面向知识图谱的知识推理综述计算机系统应用，（）：，（）：（），：，（）：，：，：，：（），：，：（上接第页），：，：，：，：，：，：王岳，李雅文，李昂科技资源文本层次多标签分类方法计算机工程与应用，（）：，（）：（）

展开阅读全文