收藏 分销(赏)

探究链接在多关系数据挖掘中的应用_涂芳.pdf

上传人:自信****多点 文档编号:459451 上传时间:2023-10-11 格式:PDF 页数:3 大小:165.75KB
下载 相关 举报
探究链接在多关系数据挖掘中的应用_涂芳.pdf_第1页
第1页 / 共3页
探究链接在多关系数据挖掘中的应用_涂芳.pdf_第2页
第2页 / 共3页
探究链接在多关系数据挖掘中的应用_涂芳.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、DOI:1019392/jcnki1671-7341202308024探究链接在多关系数据挖掘中的应用涂 芳1*曾 铭2邓左祥31上汽通用五菱汽车股份有限公司广西柳州545007;2湖南湖大艾盛汽车技术开发有限公司湖南长沙410221;3广西科技大学计算机科学与技术学院广西柳州545006摘要:随着大数据时代的来临,数据挖掘已经成为热门的研究方向,多关系数据挖掘,是数据挖掘的研究内容之一。本文对多关系数据挖掘进行概述,介绍了描述链接存在于多关系之中,通过多关系数据挖掘的五个研究成果,探究链接在多关系数据挖掘中的应用。已有的一些研究成果证实,在多关系中巧妙地利用链接,可以研究出高效的多关系数据挖

2、掘算法,链接在多关系中的作用是非常大的,可以节省空间和时间,提高准确率,有很大的可扩展性。关键词:数据挖掘;多关系;链接;应用中图分类号:TP311文献标识码:AAbstract:With the advent of the era of big data,data mining has become a popular research directionMulti-relational datamining is one of the research contents of data miningThis paper gives an overview of multi-relation

3、al data mining,introduces theexistence of description links in multi-relationship,through five research results of multi-relational data mining,and explores theapplication of links in multi-relational data miningSome existing research results confirm that skillfully using links in multi-rela-tionshi

4、ps can study efficient multi-relational data mining algorithms,The role of links in multiple relationships is very large,whichcan save space and time,improve the accuracy,and have great scalabilityKeywords:Data mining;multiple relations;link;application1 多关系数据挖掘概述随着网络技术的不断发展和进步,人类社会已经进入大数据时代1,数据在关系数

5、据库中的存储,通常以多关系,也就是多表的形式来存储。多关系数据挖掘2,是在关系数据库中相互关联的多张表(也就是关系)上,进行知识学习。对于多关系进行数据挖掘来说,一个传统方法,就是把多张表集成到一张表中,然后运用传统的数据挖掘算法,对集成后的表进行挖掘。但是在实践中,这种传统方法,存在着很多问题。这种传统方法,不但需要大量的计算,而且有可能丢失数据原有的结构特点,造成信息丢失,使得效率、可扩展性都很差。因此,有必要寻找一种直接在多关系上进行挖掘的算法,对可以直接在多关系上进行数据挖掘的算法进行研究,是一个值得研究的问题,当然也会面临一些挑战。多关系数据挖掘的算法,可以减少多关系数据挖掘所需要的

6、时间和空间,能够增大效率并具有可扩展性。多关系数据挖掘的任务,主要包括在多关系上进行分类、在多关系上进行聚类、在多关系上进行关联规则挖掘。多关系分类,是一个在多关系中,进行分类的过程,它基于存储在多关系中的信息,并且还可以进行预测。在多关系分类中,有一个目标关系,它的元组称为目标元组,它们都有一个类标签,如果假设有两个类,则可以把一个类称为正类,另一个类称为负类。多关系分类,就是在可以与目标关系进行连接操作的关系中,根据目标关系中元组的正负类,来区别出关系中正类的元组和负类的元组。多关系聚类,就是使用多关系中数据的信息,根据它们之间的相似度,来把数据对象划分成一系列簇的过程。多关系关联规则挖掘

7、,它的目标是发现存在于不同关系中相互关联的项的模式,进而可以产生多关系关联规则。2 链接存在于多关系之中链接在互联网有着巨大的作用。互联网上的网页,通过链接,互相关联在一起,对于数据挖掘来说,链接同样有着重要的作用,比如多关系数据挖掘。关系数据库是最流行的结构数据的贮存器。在关系数据库中,多关系通过实体 关系模型相互链接在一起。在多关系中,每个关系和每个关系之间主键和外键的对应,就是多关系中链接的表现形式之一。如果多关系数据库中的两个关系,可以通过数据库中物理连接的操作,连接在一起,则这个关系就存在链接。许多分类方法(比如神经网络和支持向量机),仅仅能够运用在单关系表格中,也就是说,数据存储在

8、一个独立的表格。然而,在现实世界中,多关系数据是普遍和大量存在的。有效地运用多关系之间的链接,可以实现多关系17科技风 2023 年 3 月电子信息数据挖掘,也就是直接在多关系之中进行挖掘,提高挖掘的准确率和效率。3 链接在多关系数据挖掘中的应用有效地利用多关系中的链接,可以解决多关系数据挖掘的问题,直接从多关系中挖掘知识,节省时间和空间,提高准确率、可扩展性。一些研究学者,巧妙地利用多关系中的链接,已经提出一些高效的多关系数据挖掘算法。本小节,通过描述一些多关系数据挖掘的研究成果,来探究链接在多关系数据挖掘中的应用,包括五个研究成果,分别是:CrossMine3、Graph-NB4、Cros

9、sClus5、LinkClus6、Distinct7。31 CrossMine:一种有效的在多关系中分类的算法传统的方法,在处理多关系分类时,采取物理连接多关系的方法,例如 ILP 分类方法。ILP 把 FOIL 作为它的分类算法,为了实现分类,FOIL 需要创建一个个规则,每个规则都包含一个个谓词,FOIL 通过评估每个谓词的好坏,在现有的规则中,加入最好的谓词。在这种情况下,需要一个估计谓词的方法,可以用 Foil Gain 来估计每一个谓词。拥有最大 Foil Gain 的谓词,就是最好的谓词。但是,ILP 采用对关系进行物理连接的方法,来计算出 Foil Gain,这就会造成耗时大的问

10、题。CrossMine 是一种有效的在多关系中分类的算法。与ILP 类似,CrossMine 也同样要一次一个地把谓词加进规则里去,也要计算出 Foil Gain,以找出最好的谓词。但是,与ILP 不同的是,CrossMine 不用直接对表进行连接,就可以计算出 Foil Gain,它采取的是一种基于多关系之间链接的元组 ID 传播的方法。在一般情况下,多关系数据库的目标关系中的主键,代表每个目标元组的 ID。CrossMine 使用元组 ID 传播的方法,在所有活动的关系中(初始情况下,只有目标关系是活动关系),以及那些可以与活动关系进行物理连接的关系中,寻找拥有最大 Foil Gain 的

11、谓词。算法 FOIL 和 CrossMine 大体上类似,所不同的是,FOIL 采用物理连接,CrossMine 采用基于多关系之间链接的元组 ID 传播。因此,CrossMine 在时间和空间上的花费,都比物理连接的 FOIL 少很多,对于准确率、效率、可扩展性来说,CrossMine 也比 FOIL 要更高。32 Graph-NB:一个有效、准确的多关系贝叶斯分类算法Graph-NB 是一个有效、准确的多关系贝叶斯分类算法。第一,它可以直接地处理多关系,也就是说,并不需要对关系进行连接操作,就可以分类,节省时间和空间。而现有的其他贝叶斯分类法在处理多关系时,都必须先对关系进行物理连接,相比

12、之下,Graph-NB 避免物理连接,代价较低。第二,为了充分利用表格之间的链接,并且有区别的对待链接到目标关系的不同表,建立一个语义关系图,用来描述关系,以及避免关系和关系之间不必要的连接操作。第三,为了优化语义挖掘,使得可以停止一些无用的挖掘,可以对语义关系图,采取裁减策略。语义关系图是一个无环图(V,E,W),V 代表顶点,每个顶点对应于一个表,E 代表边,而 W 代表两个表之间的连接属性。33 CrossClus:一种在用户指导下的多关系聚类算法在多关系聚类中,传统的方法,在计算两个对象的相似度时,是根据可以与它们进行连接操作的元组来判断的。然而,这种方法有两个问题。第一,它根据连接元

13、组来计算相似度,因为一个多关系中可以连接的元组通常很多,所以计算它们代价是很大的。第二,在一个数据库中,通常有许许多多的属性,它们覆盖许多不同方面的信息,但是仅仅有一小部分是和用户聚类任务有关的,使用这个方法进行聚类的话,所有的属性都会不加区分,这样子就不太可能产生用户希望得到的聚类结果。虽然以上问题,可以通过用户半指导聚类的方法来解决,但是这个方法也有不足。因为这个方法,通常需要用户拥有比较丰富的知识,能够提供高质量的测试集,然而,多关系数据的复杂性,使得用户有时候很难提供它。CrossClus 可以解决上述问题。它只需要用户提供聚类的任务,包括聚类的目标关系,以及一个或者多个指定属性。在用

14、户指定聚类任务后,CrossClus 搜寻一些相关属性,这些相关属性,是与用户指定的属性有关联的属性。在搜寻相关属性的过程中,CrossClus 使用启发式算法,在这种情况下,需要确定哪些属性是相关属性,相关属性的选择,是基于用户指定属性的。从根本上说,如果两个属性聚类元组的方式非常不同,则它们的相似性就低,而且不太可能相关,反过来,如果聚类的方式相似,它们相似性就会高,就有可能相关。所以,要找出相关属性,就要找出与用户指定属性具有一定相似度的属性。因此,需要一种计算方法,来计算相似度,相似度是用户指导的属性和其他属性之间的相关属性。总之,为了达到聚类的目的,CrossClus 最终选择的是一

15、系列具有高相关,但是却不冗余的属性。Crossclus 使用相似向量,来计算属性之间的相似度。在找相关属性的过程中,为了找到所有可以与目标关系的元组进行连接关系的元组,CrossClus 采用元组 ID 传播的方法,运用多关系之间的链接,进行虚连接,节省时间和空间。34 LinkClus:一种运用多样的语义链接的有效聚类算法在进行多关系聚类时,传统的方法,在计算相似度时,需要计算两两对象之间的相似度。在这个方法中,两个对象的相似度,递归的定义为链接到这两个对象的所有对象之间,两两相似度的平均值。比如说,如果需要计算两个研究学者的相似度,假设他们都在某些会议上发表过论文,那么,这两个研究学者的相

16、似度,可以用这些会议之27电子信息科技风 2023 年 3 月间,两两相似度的平均值来计算。虽然这个传统方法很有用,但是它的代价是很高的。不管是什么对象,它都迭代的计算两两对象之间的相似度,无论在空间上和时间上,时间复杂度和空间复杂度都很大。为了减小多关系聚类的时间复杂度和空间复杂度,实现高质量的聚类,Linkclus 设计出一种树形的数据结构Simtree,以多粒度的方式来存储相似度,可以用来存储和计算对象之间的相似度。它是一种通过链接来计算相似度的方法,通过存储比较有意义的相似度,压缩一些没有意义的相似度,有效地节省空间和时间。在 Simtree 中,不需要计算两两对象之间的相似度,只需要

17、计算一部分对象之间的相似度,节省空间和时间。虽然只计算一部分对象之间的相似度,但是任意两两对象之间的相似度,依然可以通过树形结构 Simtree 中的链接得到。Simtree 构造树形结构的思想,来源于现实生活,现实生活中,许多对象的等级结构,是自然存在的。比如,动植物的等级结构,或者商品的等级结构等。在某些超市中就存在商品的等级结构,比如全部的商品,包括食品、电器和服装等,而电器又包括电视、冰箱、洗衣机等,更进一步,电视又包括各种各样品牌的电视。如果用 Simtree 来表示沃尔玛超市的商品,则需要计算冰箱和电视的总体相似度,以及每个冰箱和每个冰箱之间的相似度,但是每个冰箱和每个电视的相似度

18、,就不再需要计算,因为它可以通过上述两个相似度推导得到。35 Distinct:一种在多关系中区别同名对象的对象识别算法在现实世界中,许多对象有可能有着相同的名字,如果不区别这些同名,可能会造成一些迷惑和误解。比如,在计算机领域的论文数据库 DBLP 中,就有许多同名作者,但是实际上不是同一个人,只是同名同姓。区别同名对象是一个重要的工作,Distinct 是一种在多关系中区别同名对象的对象识别算法,它可以用来区别同名对象,具有较高的准确率。对象识别与一个比较流行的问题类似,就是对象一致问题,也叫副本探测问题,它的目标是把涉及相同对象却命名不同的记录合并起来,比如,找出涉及同一个论文的不同引用

19、名称。但是,和对象一致问题相比较,对象识别又是一个不同的问题,在对象识别问题中,因为同名对象具有相同的名字,所以不能通过名字来计算同名对象之间的相似度。但是,在对象一致问题中,由于对象的命名不同,因此可以通过名字来计算对象之间的相似度。由于同名对象具有相同的名字,仅仅依靠名字来区别同名对象,是不可能的,因此,需要另外一种方法来区别同名对象。在多关系中,运用链接是一个非常有用的区别同名对象的手段,Distinct 运用链接来区分同名对象。如果两个对象存在关联,则这两个对象就存在链接。比如,一篇论文的所有作者之间,都是存在关联,因此存在链接的。一组同名对象,如果是同一个对象,它们的链接,通常存在相

20、同点,以一个比较固定的方式存在。比如,假设两篇论文出现同名作者,如果他们是同一个人,则通常会链接到另一个同名的共同作者,简单地说,这两篇论文如果出现两个同名作者,则这两个同名作者,都很大可能分别是同一个人。另一方面,如果同名对象不是同一个人,同名对象的链接通常也不相同。比如,假设两篇论文出现同名作者,但是其他作者都不相同,这两个同名作者,就有一定的可能,不是同一个人,只是同名同姓的两个人。为了提高区别同名对象的准确率,Distinct 定义两个对象之间链接的总体强度,定义为在一定的步数内,从一个对象链接到另外一个对象的可能性。结语在多关系数据挖掘中,已有的一些研究成果证实,在多关系中巧妙地利用

21、链接,可以研究出高效的多关系数据挖掘算法。链接在多关系中的作用是非常大的,可以节省空间和时间,提高准确率,有很大的可扩展性。今后,数据挖掘的研究学者,可以继续利用多关系中的链接,研究其他高效的多关系数据挖掘算法。参考文献:1 李春毅计算机信息安全中大数据技术的应用研究 J 电脑知识与技术,2022,18(14):19-21 2 何鹏飞基于深度学习的多模态影像融合及应用研究 D 哈尔滨:哈尔滨工业大学,2021 3 吴淋涛基于深度卷积神经网络的链路预测算法研究 D 武汉:中南民族大学,2020 4 王少峰面向异构网络搜索和聚类的语义预测算法研究 D 北京:北京化工大学,2017 5 赵丹基于膜系

22、统的多关系聚类算法的研究与应用 D 济南:山东师范大学,2017 6 尚玉玲,曹建军,李红梅,等基于合作作者与隶属机构信息的同名排歧方法 J 计算机科学,2018,45(11):220-225+260基金项目:国家自然科学基金(62061003,62166002);粤桂联合基金(2021A1515410005);广西教育厅项目(2017KY0352)*通讯作者:涂芳(1983),女,汉族,广西柳州人,学士,主任工程师,研究方向:车联网、数据挖掘。作者简介:曾铭(1996),男,汉族,广西柳州人,本科,助理工程师,研究方向:车联网、数据挖掘;邓左祥(1983),男,汉族,江西吉安人,博士,助理研究员,研究方向:车联网、数据挖掘。37科技风 2023 年 3 月电子信息

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服