收藏 分销(赏)

融合空间和文本信息的兴趣点类别表征模型.pdf

上传人:自信****多点 文档编号:715497 上传时间:2024-02-20 格式:PDF 页数:6 大小:2.41MB
下载 相关 举报
融合空间和文本信息的兴趣点类别表征模型.pdf_第1页
第1页 / 共6页
融合空间和文本信息的兴趣点类别表征模型.pdf_第2页
第2页 / 共6页
融合空间和文本信息的兴趣点类别表征模型.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2456-2461ISSN 10019081CODEN JYIIDUhttp:/融合空间和文本信息的兴趣点类别表征模型徐则林1,2,杨敏2*,陈勐1,2(1.自然资源部城市国土资源监测与仿真重点实验室,广东 深圳 518034;2.山东大学 软件学院,济南 250101)(通信作者电子邮箱)摘要:准确表征兴趣点(POI)类别(如大学、餐厅等)是理解城市空间、辅助城市计算的关键。现有的POI类别表征模型通常只挖掘用户在POI之间的移动行为并学习序列特征,而忽视了POI数据的空间特

2、征和文本语义特征。为了解决上述问题,提出一种融合空间和文本信息的POI类别表征学习模型Cat2Vec。首先,利用POI的空间共现关系构建POI类别共现点互信息(PMI)矩阵;然后,基于预训练的文本表征模型学习POI的文本语义特征;最后,引入新的映射矩阵,并基于矩阵分解技术将PMI矩阵分解为POI类别表征矩阵、文本语义特征矩阵以及映射矩阵的内积。在两个真实世界的数据集Yelp和高德上进行的POI语义重叠度评测中,相较于基准模型中表现最好的Doc2Vec模型,所提模型的性能分别平均提高了5.53%和8.17%。实验结果表明所提模型能更有效地嵌入POI语义。关键词:兴趣点类别;表征学习;特征融合;兴

3、趣点语义;矩阵分解中图分类号:TP399 文献标志码:APoint-of-interest category representation model with spatial and textual informationXU Zelin1,2,YANG Min2*,CHEN Meng1,2(1.Key Laboratory of Urban Land Resources Monitoring and Simulation,Ministry of Natural Resources,Shenzhen Guangdong 518034,China;2.School of Software,Sh

4、andong University,Jinan Shandong 250101,China)Abstract:Representing Point-Of-Interest(POI)categories(e.g.,universities,restaurants)accurately is the key to understand urban space and assist urban computing.Existing models for POI category representation usually only mine users mobility behaviors amo

5、ng POIs and learn sequential features,while ignoring spatial and textual semantic features of POI data.In order to solve the above problems,a POI category representation learning model incorporating spatial and textual information Cat2Vec was proposed.Firstly,a POI category co-occurrence Point-wise

6、Mutual Information(PMI)matrix was constructed by using the spatial co-occurrence relationships of POIs.Then,the text semantic features of POIs were learnt by a pre-trained text representation model.Finally,a new mapping matrix was introduced,and based on the matrix factorization technology,the PMI m

7、atrix was decomposed into an inner product of a POI category representation matrix,a text semantic feature matrix and a mapping matrix.In the evaluation of semantic overlapping of POIs on two real-world datasets Yelp and AMap,compared to Doc2Vec,the best model among baselines,the proposed model has

8、the performance improved by 5.53%and 8.17%averagely and respectively.Experimental results show that the proposed model can embed the semantics of POIs more effectively.Key words:Point-Of-Interest(POI)category;representation learning;feature fusion;POI semantics;matrix factorization0 引言 城市是经济活动和创新的中心

9、,作为一个复杂的空间与人文系统,存在多种类型的兴趣点(Point-Of-Interest,POI)。兴趣点通常包括3个部分:兴趣点唯一编号、兴趣点类别和地理位置标识符。兴趣点类别可以理解为兴趣点语义的概括。例如,一个兴趣点的类别是酒吧,那么意味着它具有喝酒、年轻人等隐含语义。理解兴趣点语义,对便利居民生活、高效利用土地资源等具有重要意义1-2。同时,兴趣点类别对于城市计算中的一系列其他关键研究问题亦有着重要支撑作用,例如人群移动轨迹预测3-4、面向用户的位置推荐5-6和识别用户生活模式7等。近年来,基于表征学习的模型在兴趣点语义理解研究中愈发流行。现有模型通常挖掘用户签到数据并建模用户在兴趣点

10、之间的序列转移模式来学习兴趣点的表征向量。例如,陈勐等8提出了一种概率生成模型,挖掘用户的兴趣点转移关系来学习向量表征;Yang等9将用户的签到兴趣点的类别和签到时间拼接为一个特征词,并采用连续词袋模型(Continuous Bag-Of-Words,CBOW)从特征词序列中学习向量表征;Chen等10同时挖掘用户签到的类别序列以及类别的层次结构,构建多种类型的上下文来学习类别的向量表征。相较于用户签到数据,兴趣点数据具有覆盖范围广、获取文章编号:1001-9081(2023)08-2456-06DOI:10.11772/j.issn.1001-9081.2022071037收稿日期:2022

11、0715;修回日期:20221118;录用日期:20221121。基金项目:自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题(KF202106079)。作者简介:徐则林(2000),男,江苏海安人,硕士研究生,主要研究方向:时空数据挖掘;杨敏(1989),女,山东德州人,博士,主要研究方向:大数据管理、数据挖掘;陈勐(1990),男,山东滕州人,副教授,博士,CCF会员,主要研究方向:数据挖掘、城市计算。第 8 期徐则林等:融合空间和文本信息的兴趣点类别表征模型简单等特点。一些工作建模兴趣点的空间信息,挖掘兴趣点的空间特征来学习类别向量。例如,Yan等11提出一种基于兴趣点邻接关系对

12、空间共现信息的模型,即增强空间上下文来学习类别向量;Zhai等12利用最近邻方法构建基于兴趣点的空间上下文,并基于 Skip-Gram 模型学习类别表征向量。Huang等13将随机游走模型应用到兴趣点空间网络中捕捉空间共现模式,学习兴趣点语义向量;进一步地,一些模型同时建模兴趣点序列模式和空间信息来学习兴趣点表征向量14-15。但是,这些模型主要学习兴趣点表征向量解决兴趣点推荐的问题,而不是学习类别的表征向量。一方面,用户签到数据往往获取复杂且易侵犯用户隐私;另一方面,兴趣点自身包含丰富的空间和文本信息,现有的兴趣点语义表征学习对这些信息的挖掘存在局限性。因此,本文主要关注如何深度挖掘兴趣点的

13、空间和文本信息学习兴趣点类别的低维表征并理解空间和文本信息的隐含语义。根据地理学第一定律,“所有事物都与其他事物相关,但是近处的事物比远处的事物更相关”;因此,一个兴趣点受到兴趣点邻近兴趣点的影响更大,具有空间相关性的兴趣点具有语义相似性。同时,兴趣点数据也包含了大量的文本信息,例如兴趣点的名称、用户关于兴趣点的评论等。这些文本信息描述了兴趣点的特征,可以帮助人们更好地理解兴趣点的语义。基于以上分析,本文提出了一种新的融合空间和文本信息的兴趣点类别表征学习模型Cat2Vec,它既能捕捉兴趣点之间的空间关联,又能挖掘兴趣点自身的文本信息。具体来说,Cat2Vec模型首先利用兴趣点的空间共现关系,

14、构建兴趣点类别共现点互信息(Point-wise Mutual Information,PMI)矩阵M;然后基于预训练的文本表征模型学习兴趣点的文本语义特征S;最后引入新的映射矩阵Y,基于矩阵分解技术将矩阵M分解为兴趣点类别表征矩阵T、文本语义特征矩阵S以及映射矩阵Y的内积。这样,Cat2Vec模型在兴趣点类别表征时,联合挖掘了兴趣点的空间信息和文本信息。学习到的兴趣点类别表征向量可以用在多种任务中,例如兴趣点语义查询、城市功能区域分类等。本文综合考虑兴趣点的空间和文本信息,提出了一种多模态融合的兴趣点类别表征学习模型Cat2Vec。模型可以将兴趣点类别表征为预训练的特征向量,这为兴趣点语义查

15、询、城市功能区域分类等应用提供了有力的支持。在两个真实世界的兴趣点数据集上进行了实验研究。在语义重叠度评测任务中,与表现最好的文档向量模型Doc2Vec16相比,准确度在Yelp数据集和高德数据集上分别平均提高了 5.53%和 8.17%。实验结果表明,本文提出的Cat2Vec模型能嵌入兴趣点语义,在语义重叠度评测任务上的表现优于基准模型。1 问题定义与数据集 1.1问题定义定义1 兴趣点。兴趣点v是城市空间中特定的位置点,由三个部分组成:兴趣点唯一编号、地理位置坐标(例如经纬度坐标)以及兴趣点类别集合T=t1,t2,tN,N代表兴趣点类别数。定义2 兴趣点类别。兴趣点类别t(例如加油站、酒吧

16、)表示一个兴趣点提供的活动主题。一个城市或者一个区域可以被表示为一系列兴趣点类别的集合,其中每个类别ti包含了分布在城市空间中的多个兴趣点Vi=v1,v2,vNvti,Nvti表示具有类别ti的兴趣点总数。定义 3 兴趣点文本。兴趣点文本包括从兴趣点的标签、评论和名称等中提取的词汇,这里用 w1,w2,来表示兴趣点的文本内容。兴趣点类别ti的单词集合包括所有具有类别ti的兴趣点的文本,表示为Wi=w1,w2,wNwti,其中Nwti是类别ti的文本的单词总数。定义4 兴趣点类别表征。给定兴趣点类别集合T以及与各个类别ti相关联的兴趣点集合Vi和单词集合Wi,兴趣点类别表征为每一个类别ti学习一

17、个嵌入兴趣点语义的向量表征Vti RD,其中D表示向量的维度。1.2数据集Yelp数据集(https:/ 206种兴趣点类别、31 631个兴趣点、7 875 488条用户评论以及465 713条兴趣点介绍。高德数据集17:高德地图提供了兴趣点信息的获取接口,用于爬取兴趣点的唯一编号、中文地址、所属城市、名称、经纬度和对应的兴趣点类别。本文选择北京市作为研究区域,构建高德数据集。该数据包括838种兴趣点类别和1 259 625个兴趣点。针对这两个数据集,首先统计每种兴趣点类别对应的兴趣点的数量,如图1所示。这两个数据集的兴趣点类别排名-兴趣点数量分布都呈现长尾分布的特征;接着绘制了对数图,都呈

18、现出线性趋势。使用线性回归拟合该数据,得到R平方值分别为0.843 4和0.836 0,这表明线性模型与数据拟合较好。这些统计结果表明兴趣点类别排名-兴趣点数量遵循幂律分布,其中一些兴趣点类别在数据中占据主导地位。图1兴趣点类别-出现频次分布Fig.1Distribution of POI category-frequency进一步地,本文分析兴趣点文本中的词汇信息。在Yelp数据集中,选取兴趣点介绍和用户评论作为文本信息;在高德数据中,选取兴趣点的名称作为文本信息。以 Yelp 数据为例,图 2 展示了 4 种兴趣点类别(Ice Cream&Frozen Yogurt、Shaved Ice、

19、Colleges&Universities 和 Hair Salons)的词汇分布。显然,语义不同的兴趣点类别(例如Ice Cream&Frozen Yogurt2457第 43 卷计算机应用和Colleges&Universities)的词汇分布有较大差距;语义相近的兴趣点类别(例如Ice Cream&Frozen Yogurt和Shaved Ice)具有相似的词汇分布。这些词汇在一定程度上能够表达兴趣点类别的语义。2 兴趣点类别表征模型 模型中用到的符号如表1所示。2.1Cat2Vec模型图3展示了Cat2Vec模型的框架。Cat2Vec模型联合挖掘兴趣点的空间信息和文本信息,并将两种信息

20、融合在一个统一的模型中。空间信息挖掘 具有经纬度坐标的兴趣点,分布在城市空间中。根据地理学第一定律,空间邻近的兴趣点的关联更加紧密。因此,本文首先挖掘兴趣点的空间上下文,即给定目标兴趣点,选择目标兴趣点的近邻作为空间上下文,并假设具有相似空间上下文的兴趣点的语义是相似的,也就是具有相似空间上下文的兴趣点的类别表征向量在嵌入空间中是相近的。文本信息挖掘 兴趣点通常具有文本信息,例如用户在Yelp上关于兴趣点的评论、高德地图中兴趣点的名称等。这些文本信息可以很好地反映兴趣点的语义。本文利用这些文本信息学习预训练的兴趣点文本语义特征,表示为S。最后,联合挖掘兴趣点的空间信息和文本信息,在隐含空间中建

21、立兴趣点类别表征矩阵T和兴趣点类别的文本语义特征矩阵S的关系。具体地,本文构建了兴趣点类别共现PMI矩阵,并基于矩阵分解将PMI矩阵M分解为兴趣点类别表征矩阵T、兴趣点类别的语义特征矩阵S和映射矩阵Y的积。学习得到的兴趣点类别表征向量可以用在多种下游任务中,例如兴趣点推荐、地图检索等。2.2空间信息挖掘近年来,词向量模型Word2Vec18常用来学习单词的表征向量,假设具有相似上下文的单词在隐含表征空间中具有相似的语义。鉴于兴趣点类别的排名-兴趣点数量遵循幂律分布,这和单词分布类似,本文提出基于Word2Vec模型的思想学习兴趣点类别的表征向量。不同于序列化的自然语言,兴趣点分布在二维地理空间

22、中。因此,如何构建兴趣点的上下文成为亟待解决的问题。考虑到兴趣点的空间分布特性,本文从空间近邻的角度构建兴趣点的上下文。具体来说,给定一个目标兴趣点,首先寻找它Ks个近邻的兴趣点作为空间上下文;进一步地,由于每个兴趣点可能具有多个兴趣点类别,采用笛卡儿积分别获得每个目标兴趣点类别和其对应的上下文兴趣点类别的训练对;然后,假设目标兴趣点有Nt个类别,第k个上下文兴趣点有Nk个类别,那么总计获得Ntk=1KsNk个训练对;最后,遍历每一个目标兴趣点,将获得的训练对加入到训练数据集D中。图2兴趣点类别的词汇分布Fig.2Word distribution of POI category表1符号和描述

23、Tab.1Symbols and descriptions符号v,t,cNDKVtVcM RN NT RN DC RN DS RN KY RD K描述兴趣点、目标兴趣点类别、上下文兴趣点类别兴趣点类别数量向量空间的维度文本语义特征向量的维度目标兴趣点类别的向量表征上下文兴趣点类别的向量表征兴趣点类别的共现PMI矩阵目标兴趣点类别的表征矩阵上下文兴趣点类别的表征矩阵兴趣点类别的文本语义特征矩阵映射矩阵图3Cat2Vec模型框架Fig.3Framework of Cat2Vec model2458第 8 期徐则林等:融合空间和文本信息的兴趣点类别表征模型基于目标兴趣点类别和上下文类别的训练对,采用

24、Skip-Gram模型来学习兴趣点类别的表征向量。由于Skip-Gram模型的目标函数已被证明等价于分解单词共现PMI矩阵19,本文提出挖掘兴趣点类别的共现信息来学习类别表征向量。具体地,给定目标兴趣点类别t和上下文类别c,首先基于类别的共现频率计算PMI值:PMI(D)t,c=lb#(t,c)|D#(t)#(c)(1)其中:#(t,c)表示兴趣点类别t和c构成的训练对在数据集D中的出现次数;#(t)表示类别t在D中出现的次数;#(c)表示类别c在D中出现的次数;|D|表示训练对的总数。PMI(D)t,c通过计算联合概率和边际概率比值的对数,衡量目标兴趣点类别t和上下文兴趣点类别c之间的相似度

25、。进一步地,建立目标兴趣点类别t和上下文类别c的PMI值与兴趣点类别表征向量的联系:VtVc PMI(D)t,c(2)其中:Vt表示目标兴趣点类别t的向量;Vc表示上下文类别c的向量。最后,为了学习兴趣点类别的表征向量,将目标函数定义为:minT,CM-TCT2F+(T2F+C2F)(3)其中:M RN N表示正的兴趣点类别共现 PMI 矩阵,即M(t,c)=max(0,)PMI(D)t,c;T RN D表示目标兴趣点类别的表征矩阵;C RN D表示上下文兴趣点类别的表征矩阵;D表示表征向量的维度。通过对所有共现对最小化均方误差的方法将M分解为T和C的内积,F表示 Frobenius 范数。(

26、T2F+C2F)是正则化项,用于解决过拟合问题。基于这个目标函数,具有相似语义的兴趣点类别将分布在隐含空间中的相近位置。2.3文本信息挖掘除了空间信息,兴趣点通常还具有文本信息(如用户评论、兴趣点的名称等),并且兴趣点的文本信息和兴趣点类别是密切相关的。例如用户针对冰淇淋店Ice Cream的评论通常包含good、flavor等单词,而针对高校Colleges的评论中通常包含student、school等单词。为此,本文挖掘了兴趣点的文本信息来帮助更好地学习类别表征向量。具体地,首先获取一个兴趣点类别的所有文本信息,并构建一个文档;然后利用自然语言模型(例如主题模型 LDA(Latent Di

27、richlet Allocation)20或文档向量模型Doc2Vec16等)学习文档的低维语义特征,作为兴趣点类别的文本语义特征。用S RN K表示兴趣点类别的文本语义特征,其中K是特征向量的大小。注意,也可以利用兴趣点相关的图像(例如街景图像和用户评论中的图像)学习兴趣点类别的语义特征,例如利用预训练的卷积神经网络学习图像语义特征。进一步地,将预训练的兴趣点类别的文本语义特征S融入PMI矩阵分解中。在式(3)中,上下文类别的表征矩阵C是不确定的,需要学习。但兴趣点类别本身已经具有预训练的文本语义特征,能确定地表征兴趣点类别的部分语义。因此,本文提出利用文本语义特征矩阵S来替换上下文表征矩阵

28、C。由于S和C的维度不同,本文引入新的映射矩阵Y RD K,使YST的维度与CT的维度一致。具体地,定义新的目标函数为:minT,Y,S=M-TYST2F+(T2F+Y2F+S2F)(4)这样就联合挖掘了兴趣点的空间信息和文本信息,并建立了兴趣点类别表征向量和预训练的文本语义特征之间的联系。2.4模型学习本文采用交替优化策略来求解式(4)中的变量T、Y和S。在每次迭代中,固定其他变量并优化一个变量,直到目标函数收敛。2.4.1固定Y与S,计算T固定Y与S,求关于T的导数:T=-2(M-TYST)SYT+2T(5)令式(5)等于0,可以求得:T=MSYT(YSTSYT+I)-1(6)其中I RD

29、 D表示单位矩阵。公式右侧的第二项(YSTSYT+I)容易被证明是正定的。因此,根据正定矩阵的定义,该项是可逆的。2.4.2固定T与Y,计算S固定T和Y,可以计算关于S的导数为:S=-2(MT-SYTTT)TY+2S(7)令式(7)等于0,可以求得:S=MTTY(YTTTTY+I)-1(8)其中(YTTTTY+I)容易被证明是正定的。因此,该项是可逆的。2.4.3固定T与S,计算Y固定T和S,可以计算关于Y的导数为:S=-2(MT-SYTTT)TY+2S(9)令式(9)等于0,可以求得:TTTY+Y(STS)-1=TTMS(STS)-1(10)式(10)是一个Sylvester方程,可以按式(

30、11)(13)求解:vec(Y)=P-1Q(11)P=ID(TTT)+(STS)-1 IK(12)Q=vec(TTMS)(13)其中:ID表示D D维的单位矩阵;IK表示K K维的单位矩阵;表示Kronecker积;vec表示矩阵列的拼接。Cat2Vec模型的学习算法如算法1所示。首先,基于兴趣点的空间分布信息,构造兴趣点类别共现PMI矩阵M;基于兴趣点的文本信息,为每种兴趣点类别构建预训练的文本语义特征矩阵S;然后,初始化兴趣点类别表征矩阵T和映射矩阵Y;最后,根据式(6)、(8)和(10)迭代更新这些参数,直到目标函数收敛。算法1 Cat2Vec学习算法。输入 兴趣点类别集合T、兴趣点集合

31、V、单词集合W、空间近邻数目Ks、兴趣点类别表征向量维度D和正则化权重;输出 兴趣点类别表征向量T、文本语义特征向量S和映射矩阵Y。1)基于兴趣点类别集合T 和兴趣点集合V,利用兴趣点的空间分布信息构建PMI矩阵M2)基于兴趣点类别集合T 和单词集合W构建预训练的语义特征矩阵S3)初始化T,Y4)while 目标函数未收敛 do5)根据式(6)更新T6)根据式(8)更新S7)根据式(11)更新Y8)end while2459第 43 卷计算机应用3 实验与结果分析 本文选取了两个真实的兴趣点数据集(Yelp数据集和高德数据集),利用兴趣点语义重叠度评测任务验证Cat2Vec模型的有效性,并详细

32、分析说明了实验结果。3.1实验设置在Cat2Vec模型中,利用Doc2Vec模型为每个兴趣点类别学习文本语义特征矩阵S,并设定维度为10。关于Cat2Vec模型中的参数,矩阵T的维度设定为10100,空间近邻Ks为5,10,15,20,正则化权重=10-8。实验在配有2.1 GHz的Intel Core i7处理器和16 GB内存的计算机上运行。3.2对比模型1)SC(Spatial Context)11:该模型主要挖掘兴趣点的空间信息,利用Skip-Gram模型建模兴趣点的空间上下文,并将兴趣点类别映射到嵌入空间中。2)Doc2Vec16:该模型是一种文档表征模型,可以基于兴趣点类别的文本信

33、息学习兴趣点的语义特征。3)LDA20:该模型是一种主题模型,可以将文档表征成若干主题的分布,将兴趣点类别文本信息的主题分布作为兴趣点类别的语义特征。4)Cat2Vec(w/o Text):该模型是本文提出的Cat2Vec模型的变体,只考虑兴趣点的空间信息。近些年,也有一些模型通过挖掘用户在兴趣点的移动行为来学习兴趣点类别的表征向量9。鉴于用户移动行为涉及用户隐私问题,本文提出基于兴趣点自身的空间和文本信息学习类别表征向量。基于公平性原则,本文没有将挖掘用户移动行为的模型作为对比模型。3.3语义重叠度评测为了比较每种兴趣点类别表征模型编码语义属性的程度,对兴趣点类别的语义重叠度10,21进行评

34、测。因为余弦距离可以通过衡量空间向量的夹角评估向量之间的相似性与相关性,本文在表征空间中利用余弦距离计算每一种类别ti的近邻tj。如果ti和tj具有相同的根节点类别(类别层次结构中第一层的节点),则认为ti与tj是语义相关的类别。根据这种方式,寻找每一种兴趣点类别的Knear近邻,并计算语义相关类别在Knear近邻中的比例。最后,定义语义重叠度为:语义重叠度=tiT类别ti在Knear中语义相关类别数Knear|T(14)由定义可知,语义重叠度的值越大,意味着兴趣点类别的表征向量更好地捕捉到了语义信息。3.3.1结果分析在语义重叠度评测时,分别设置近邻数Knear=5,10,15。表2展示了所

35、有模型在Yelp数据和高德数据的实验结果。由表2可知:1)SC模型和Cat2Vec(w/o Text)模型表现相对较差,因为它们只挖掘了兴趣点的空间近邻信息。其中,SC模型采用Skip-Gram 模型,Cat2Vec(w/o Text)模型采用矩阵分解方法。值得注意的是,SC模型和Cat2Vec(w/o Text)模型在Yelp数据上取得了相似的结果,但是在高德数据上,SC模型表现得远好于Cat2Vec(w/o Text)模型。原因在于高德数据有超过120万个兴趣点,远超于Yelp数据的3万多个兴趣点。更多的兴趣点并不会影响Cat2Vec模型中PMI矩阵M的构造,仅影响M中的值,但是会产生更多

36、的目标类别上下文类别构成的对,使Skip-Gram模型训练更充分。2)LDA模型和Doc2Vec模型主要挖掘兴趣点类别的文本信息,相较于空间模态挖掘模型表现得更好,这表明文本信息中蕴含了更多反映兴趣点语义的知识。在Yelp数据中,采用用户评论作为兴趣点类别的文本信息。在这种长文本信息中,LDA模型和Doc2Vec模型均获得了较好的结果;在高德数据中,采用兴趣点的名称作为文本信息,这是一种短文本信息。LDA模型表现较差因为它不适合建模短文本。3)Cat2Vec模型融合考虑了兴趣点的空间信息和文本信息,在评测中表现得最好。这也验证了提出的模态融合模型的有效性。3.3.2参数敏感性分析接下来探究Ca

37、t2Vec模型中的空间近邻数目Ks和嵌入空间维度D对结果的影响。首先,设置Knear=5,调整Ks的值来评测它的影响,结果如图4(a)所示。实验结果表明语Ks=20时,模型性能达到最大值。进一步地,调整D来评测它的影响,从图4(b)中可知,随着D的增大,模型的表现也越来越好。当D大于70时,模型的表现相对稳定。3.3.3模型效率分析最后探究不同模型的运行时间,如表3所示。SC模型在高德数据集上的运行时间远超过Yelp数据集,原因是SC模型需要遍历所有的兴趣点来学习兴趣点类别向量,且高德数据集拥有更多的兴趣点。Cat2Vec(w/o Text)模型基于兴趣点数据构建兴趣点类别的PMI矩阵,并利用

38、矩阵分解学习向量表征,模型运行时间只和PMI矩阵大小有关,不受兴趣点数的影表2语义重叠度评测的结果Tab.2Results of semantic overlapping evaluation模态空间文本多模态模型SCCat2Vec(w/o Text)LDADoc2VecCat2VecYelp数据集Knear=50.4170.4200.6370.6280.647Knear=100.3750.3420.6040.5740.606Knear=150.3500.2990.5720.5380.581高德数据集Knear=50.7120.5040.5100.7230.760Knear=100.6390.

39、3920.4500.6230.675Knear=150.5900.3280.4240.5520.613图4参数敏感性分析Fig.4Parameter sensitivity analysis2460第 8 期徐则林等:融合空间和文本信息的兴趣点类别表征模型响。Yelp数据中引入了用户评论作为文本信息,具有更多的文本量,因此,LDA模型和Doc2Vec模型在Yelp数据上需要更多的运行时间。本文提出的Cat2Vec模型引入了预训练好的文本语义特征,可以帮助模型更快满足收敛条件,因此运行时间比不考虑文本信息的Cat2Vec(w/o Text)模型更短。4 结语 本文提出了一种融合挖掘空间和文本信息

40、的兴趣点类别表征学习模型Cat2Vec,对兴趣点的空间近邻关系和文本语义特征同时建模。考虑到兴趣点的空间分布特性,Cat2Vec模型首先利用空间近邻思想构建兴趣点共现PMI矩阵,然后基于兴趣点相关的文本信息学习预训练的文本语义特征,最后基于矩阵分解技术在隐含空间中建立兴趣点类别表征和文本语义特征的联系。Cat2Vec模型可以学习得到兴趣点类别的表征向量,并使具有相似语义的类别在嵌入空间中距离较近。在两个真实的兴趣点数据集上验证了模型的有效性。实验结果表明本文提出的Cat2Vec模型效果优于基准模型。由于城市中的兴趣点数据不仅仅包含文本信息,在后续的工作中,将考虑融合更多的信息(如图像、签到行为

41、等)到模型中,以挖掘更全面的兴趣点类别特征。参考文献(References)1 乐阳,刘瑜,陈云松,等.空间和地理计算与计算社会学的融合路径 J.武汉大学学报(信息科学版),2022,47(1):1-18.(YUE Y,LIU Y,CHEN Y S,et al.Integration path of spatial and geo-computing and computational social science J.Geomatics and Information Science of Wuhan University,2022,47(1):1-18.)2 郑宇.城市计算:用大数据和AI

42、驱动智能城市 J.中国计算机学会通讯,2018,14(1):8-17.(ZHENG Y.Urban computing:powering smart cities with big data and AI J.Communications of CCF,2018,14(1):8-17.)3 LUCCHINI L,CENTELLEGHER S,PAPPALARDO L,et al.Living in a pandemic:changes in mobility routines,social activity and adherence to COVID-19 protective measur

43、esJ.Scientific Reports,2021,11:No.24452.4 ZHANG C,ZHAO K,CHEN M.Beyond the limits of predictability in human mobility prediction:context-transition predictabilityJ.IEEE Transactions on Knowledge and Data Engineering,2023,35(5):4514-4526.5 DONG Z,MENG X W,ZHANG Y J.Exploiting category-level multiple

44、characteristics for POI recommendation J.IEEE Transactions on Knowledge and Data Engineering,2023,35(2):1488-1501.6 孟祥福,张霄雁,唐延欢,等.基于地理-社会关系的多样性与个性化兴趣点推荐 J.计算机学报,2019,42(11):2574-2590.(MENG X F,ZHANG X Y,TANG Y H,et al.A diversified and personalized recommendation approach based on geo-social relatio

45、nshipsJ.Chinese Journal of Computers,2019,42(11):2574-2590.)7 CAO H C,XU F L,SANKARANARAYANAN J,et al.Habit2vec:trajectory semantic embedding for living pattern recognition in population J.IEEE Transactions on Mobile Computing,2020,19(5):1096-1108.8 陈勐,刘洋,王月,等.基于时序特征的移动模式挖掘 J.中国科学:信息科学,2016,46(9):12

46、88-1297.(CHEN M,LIU Y,WANG Y,et al.Mining mobility patterns based on temporal and sequential features J.SCIENTIA SINICA Informationis,2016,46(9):1288-1297.)9 YANG J,EICKHOFF C.Unsupervised learning of parsimonious general-purpose embeddings for user and location modelingJ.ACM Transactions on Informa

47、tion Systems,2018,36(3):No.32.10 CHEN M,ZHU L,XU R H,et al.Embedding hierarchical structures for venue category representation J.ACM Transactions on Information Systems,2022,40(3):No.57.11 YAN B,JANOWICZ K,MAI G C,et al.From ITDL to Place2Vec:reasoning about place type similarity and relatedness by

48、learning embeddings from augmented spatial contextsC/Proceedings of the 25th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems.New York:ACM,2017:No.35.12 ZHAI W,BAI X,SHI Y,et al.Beyond Word2vec:an approach for urban functional region extraction and identification

49、 by combining Place2vec and POIs J.Computers,Environment and Urban Systems,2019,74:1-12.13 HUANG W M,CUI L Z,CHEN M,et al.Estimating urban functional distributions with semantics preserved POI embeddingJ.International Journal of Geographical Information Science,2022,36(10):1905-1930.14 FENG S S,CONG

50、 G,AN B,et al.POI2Vec:geographical latent representation for predicting future visitors C/Proceedings of the 31st AAAI Conference on Artificial Intelligence.Pal Alto,CA:AAAI Press,2017:102-108.15 LIAN D F,WU Y J,GE Y,et al.Geography-aware sequential location recommendationC/Proceedings of the 26th A

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服