收藏 分销(赏)

灰关联分析与可拓工程在信息检索系统中的应用.pdf

上传人:自信****多点 文档编号:628390 上传时间:2024-01-18 格式:PDF 页数:5 大小:1.20MB
下载 相关 举报
灰关联分析与可拓工程在信息检索系统中的应用.pdf_第1页
第1页 / 共5页
灰关联分析与可拓工程在信息检索系统中的应用.pdf_第2页
第2页 / 共5页
灰关联分析与可拓工程在信息检索系统中的应用.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、现代计算机Modern Computer第 29 卷 第 12 期2023 年 6 月 25 日灰关联分析与可拓工程在信息检索系统中的应用周峰*,王征(西南财经大学计算机与人工智能学院,成都 611130)摘要:该研究的目的是探索使用可拓模糊模型设计智能信息检索的方法。对于各种信息检索模式,我们将分析、比较并结合模糊理论、灰关联分析、可拓理论和可拓关联函数,以提高其搜索的准确性,并提高获得数据的可用性。将这些理论应用于智能信息检索。设计了一个智能摘要搜索引擎,可以帮助用户通过输入关键字,从多个主要搜索引擎中获得结果,对结果进行灰关联度分析等处理,从结果中自动筛选出相关内容,并按权重降序排序输出

2、,以提供用户更优的结果。关键词:灰关联分析;可拓工程;信息检索文章编号:10071423(2023)12005005DOI:10.3969/j.issn.10071423.2023.12.009收稿日期:20230501修稿日期:20230525基金项目:国家社会科学基金青年项目(14CGL050)作者简介:*通信作者:周峰(1983),男,重庆人,硕士,工程师,研究方向为计算机应用、信息检索,Email:zhouf_;王征(1978),男,新疆人,硕士,副教授,研究方向为网格计算、数据挖掘0引言由于互联网的普及,在日常生活中使用搜索引擎在网络上搜索各种信息是不可避免的。不同的搜索平台背后使用

3、的搜索引擎技术各不相同。因此,用户向搜索引擎提交关键字后,搜索引擎返回大量结果,并非所有结果都契合用户的目标。信息检索的目的是从互联网上的大量数据中发现对用户有用的知识,已成为近年来最有价值的研究课题之一13。但是,由于现有搜索引擎找到的数据仍然是海量信息,如何进一步缩小范围也是一个值得探讨的问题。灰关联分析是一种多因素分析方法,通常用于评估多个因素之间的相关性和影响程度。与传统的多因素分析方法不同的是,灰关联分析不需要预先设定权重,而是通过计算各因素之间的关联程度,来确定它们在整体影响中的重要性,灰关联分析方法在很多领域都有着不错的效果46。本文基于互联网上常见的几种搜索引擎,并结合灰关联分

4、析方法和可拓函数的基本概念,对搜索过程进行改造,以提供尽可能满足用户期望的搜索结果。为了获得具有高相关性的数据,我们将引入扩展模糊理论和灰关联分析等方法来重新调整查询关键字的权重,以探讨各种权重对搜索结果相关性的影响。此外,对于一些过于简单的关键字,搜索引擎返回的数据通常也不太友好,或是过多,或是不太相关,如果引入可拓工程的思想,建立外延模糊推理机制,将经典域扩展到可拓域,将归因函数扩展到可拓关联函数,以提高搜索效果。1研究方法本文的重点是设计一种摘要搜索方法,而不是另一个搜索引擎。为对现有知名搜索引擎的搜索结果进行分析对比,向用户提供更好的搜索结果,本节将介绍对各大搜索引擎返回的相关信息进行

5、处理的过程。使用余弦函数分析传统的数据项频率、文档频率以及两者的组合因子计算;使用灰关联分析进行对比,利用物元变换对关键字进行扩展和调整,然后进行分析比较。50周峰等:灰关联分析与可拓工程在信息检索系统中的应用第12期1 1.1 1传统传统方法的解释方法的解释假 定 此 系 统 中 有 m 篇 文 档dj,其 中j 1,m,有 n个索引项ki,i 1,n。并构成索引项集合K=k1,kn。定义ti,j为数据项频率(term frequency),即ki在文件dj出现的次数。若索引项在文件中未出现,则ti,j的值为 0。因此,索引项向量可用dj=(t1,j,t2,j,.,tn,j)来表示。而用户查

6、询项也可用q =(q1,q2,.,qn)向量来表示。要计算文档dj和用户查询q 之间的相似性,可以使用余弦函数公式,即:sim(dj,q)=dj q|dj|q|=i=1nti,j qii=1nt2i,ji=1nq2i(1)为避免长文件所产生的数据项频率偏大,对数据项频率的计算做归一化处理,修改为fi,j=ti,jmaxltl,j(2)在公式(2)中,maxltl,j是指数据项的最大频率。如果文件dj从未出现数据项频率ki,则fi,j置0。一般来说,若某些数据项出现在大多数文件中,则无法帮助我们区分它们是相关文件还是不相关文件。为此,可以计算数据项ki的文件频率,若总共N个文件中有ni个文件包含

7、此数据项,其计算公式为idfi=logNni(3)根据上述结果,可计算出指数项的权重关联:wi,j=fi,j logNni(4)对此公式已经有几种相关的算法,其中Salton等7对查询项权重的计算有以下建议:wi,j=()0.5+0.5fi,jmaxlfl,j logNni(5)公式(5)可让我们重新定义某一关键字在某一篇文章中的权重值。1 1.2 2使用灰关联分析的比较分析使用灰关联分析的比较分析对于用户输入的关键字查询,我们将汇总几个常用搜索引擎的返回结果,并将其存放在暂存区域。本文采用灰关联算法,对暂存区中的数据进行排序处理,然后返回给用户。在处理过程中,每个索引项在查询结果中都有其出现

8、频率。将这个频率代入灰关联公式中进行比较判断,并将结果按关联度高低排序返回。详细说明如下:假设 S 是一组数据序列。x0 S是参考序列,且xj S,j=1,m是与参考序列比较的m个待比较序列。xj(i)代表第j个资料序列中的第i项。令(x0,xj)代表x0和xj之间的灰关联程度,则第i个灰关联程度值计算公式如下:()xo(i),xj(i)=minmq=1minnp=1|x0(p)-xq(p)|x0(i)-xj(i)+maxmq=1maxnp=1|x0(p)-xq(p)+maxmq=1maxnp=1|x0(p)-xq(p)|x0(i)-xj(i)+maxmq=1maxnp=1|x0(p)-xq(

9、p)(6)式(6)中 的为 分 辨 系 数,通 常 取 0.5。minqminp|x0(p)-xq(p)和maxqmaxp|x0(p)-xq(p)分别用于提取数据项和序列中的最短与最长距离。两个序列间的灰关联程度值用如下定义描述:(x0,xj)=1ni=1n()x0(i),xj(i)(7)我们将每个搜索引擎的前30个结果放入暂存区,并进行灰关联分析。下述案例用于说明使用灰关联分析来识别相关关键字的方法。表1列出了系统搜索数据项频率的部分结果。表 1前10个可能网站的部分数据项频率网页URL1URL2URL3URL4URL5URL6URL7URL8URL9URL10机器学习51210210165

10、29149人工智能081010033377数据集341000012311标签2750006463模型1172340102493算法3584000122200分类16000031813此表中有 7个序列,每个序列由所有文件中出现的每个数据项的频率次数组成。如果查询数据项为“机器学习”,则引用序列是表中关键字“机器学习”的序列。在分析和计算关键 51现代计算机2023年字与其他序列之间做灰关联度分析后,发现数据项“人工智能”与“机器学习”的相关性强于其他数据项。基于此,系统将根据关联程度自动排序并移交给用户。如果用户输入多个关键字,可以使用扩展理论和模糊推理模型来挖掘预期数据。例如,用户输入两个查

11、询数据项:“机器学习”和“人工智能”。使用我们的可拓函数推断,与之相关的关键字是“数据集”“标签”“模型”和“算法”等。使用灰度关联法的目的是从各大门户网站检索的数据中快速找到相关结果,然后再计算相关的关键字。以下示例显示,我们的系统从两个搜索引擎百度(baidu)和搜狗(sogou)检索了与“机器学习”相关的链接,各取前30个存放在暂存区,然后从每个搜索引擎返回结果中抽取了其中的 1个。每个查询结果中有多个数据项,还包含网页图片,页面记录时间等,我们在对数据进行预处理时保留了标题和摘要信息,以及链接来源标记。为了加快检索处理速度,此处只提取了摘要信息中的标题和摘要用于数据项频率分析,保留了链

12、接地址作为源的标记。表 2显示了数据项汇总数据结构。表 2汇总的数据结构链接URL1URL2URL n各数据项及频率机器学习(5),人工智能(3),数据集(2),标签(2),验证(1)机器学习(2),人工智能(2),监督(2),算法(2)分类(1),机器学习(3),人工智能(3),测试(1),算法(1),标签(1)我们使用公式(6)、公式(7)来计算每个关键字的相对权重。并非文档中的所有单词都具有相同的权重,名词单词更有可能表示文档的内容和含义。表3 显示了从网站检索并放置在竞争缓冲区中的前7个数据项的总频率。表 3前几项数据项总频率数据项机器学习人工智能数据集特征标签模型算法总频率13511

13、819131097在使用灰关联法进行分析后,我们重新确定了表中相关关键字排序。同时,对关联分析后的数据进行归一化处理,调整公式如下:wi=wi-wminwmax-wmin(8)调整后,表4显示了新的指数权重。表 4关联分析及归一化处理数据项机器学习人工智能监督分类数据集特征验证归一化后10.86640.0770.07050.05340.0390.03652可拓模糊推论可拓学是蔡文教授创立的学科8,主要研究事物拓展的可能性和开拓创新的规律与方法,并用以解决矛盾问题,是一门交叉学科,基本理论是可拓论,特有的方法是可拓方法,逻辑基础是可拓逻辑9。可拓集合是可拓学的理论支柱之一,是在经典集合和模糊集合

14、的基础上发展起来的另一个集合概念。可拓学在多个领域都有着不错的表现,本文则使用了可拓学中的可拓关联函数的思想10。为了让系统能从用户输入的一个关键字推演出可能的关键字,我们使用了可拓模糊推论模型来增强系统功能,具体步骤如下:(1)模糊模型变量的选择:采用灰关联分析方法,计算可能的输入变量与输出变量之间的灰关联度,并对它们进行重要性排序。我们选择相关性较高的变量,丢弃相关性较低的变量,并在此基础上快速建立简化的模糊模型。(2)在定义的域上设置初始归属函数,并计算出第i-1与第i+2区的可拓关联值。(3)构建经典域中的物元:Rc=data x,C1,C2,(9)52周峰等:灰关联分析与可拓工程在信

15、息检索系统中的应用第12期(4)建构可拓域中的物元:Re=data x,C3,C4,(10)其中:r1i表示左可拓域;r2i表示右可拓域。(5)定义可拓关联函数:kj(x)=(x,X0)(x,X)-(x,X0),x X0-(x,X0)0.5|X0,x X0(11)(6)可拓关联程度计算:ki(x)=ci+bi-xbi(12)ki+1(x)=x-ci+1+bi+1bi+1(13)ki-1(x)=ci-1+bi-1-xr2i-1(14)ki+2(x)=x-ci+2+bi+2r1i+2(15)(7)根据模糊法则:若x是Ai,那么y是wi,可拓模糊推论输出如下:yc=()j=i-1i+2kj(x)wj

16、j=i-1i+2|kj(x)(16)(8)设定误差函数为E=12(yc-yd)2,其中yd为期望输出值。利用微分方式求参数pj的后续调整方向E/pj的公式表示:Epj=Eycyck(x)k(x)pi(17)参数pj可以用如下公式计算:pj(t+1)=pj(t)-pEpj(18)其中,p代表学习速率。同理可求结论部分调整方式的公式表示:wi(t+1)=wi(t)-wEwi=wi(t)-wEycycwi(19)其中,w表示结论部分的学习速率。3系统结构及实验3 3.1 1系统系统结构结构此信息检索系统结构如图 1所示,其中各部分的功能介绍如下。(1)数据收集:从多个搜索引擎中获取相关的搜索结果数据

17、集,包括搜索引擎 1到搜索引擎n。(2)数据预处理:对来自不同搜索引擎的结果数据进行预处理,包括去除重复项、去除噪声数据、统一数据格式等。(3)灰关联分析:使用灰关联分析方法对搜索结果进行关联分析,计算各个因素之间的关联度。(4)可拓工程:在灰关联分析的基础上,应用可拓工程方法进行进一步的数据处理。(5)结果整合:根据灰关联分析和可拓工程的结果,对多个搜索引擎返回的结果进行整合和排序,生成综合的搜索结果列表。用户数据收集百度搜狗搜索引擎数据预处理结果整合可拓工程灰关联分析暂存区图 1信息系统检索结构3 3.2 2实验结果与分析实验结果与分析根据以上的系统结构,本文假定用户在查到需要的数据后不会

18、再进行翻页操作,用户翻页次数据越少,说明对结果满意度越高。实验将对搜索结果的翻页数据进行统计,以比较使用系统后的效果。实验选取了30个用户,随机分两组在相同的操作界面下同时给定关键字进行搜索,A组使用上述结构,B组随机选取搜索引擎进行实验,分别获得各组平均翻页次数见表5(保留两位小数)。表 5实验统计关键字实验1 西瓜书实验2 模糊数学实验3 520节日实验4 回归分析实验5 决策树实验6 大模型实验7 芯片制造实验8 贝叶斯实验9 量子计算A组平均值1.471.732.331.802.131.662.202.131.87B组平均值1.671.802.532.202.131.802.402.4

19、01.87 53现代计算机2023年数据统计结果如图2所示。3.02.52.01.51.0123456789A组平均值B组平均值图 2各实验平均翻页次数统计实验结果表明,在使用上述系统结构对搜索结果进行处理后,总体用户翻页率在减小,部分查询与原有结果表现相当。4结语本文设计的信息检索系统使用灰关联分析和可拓工程对多个搜索引擎返回的结果进行整合,可以提供更全面、准确、可靠的搜索结果。其结构包括数据收集、数据预处理、灰关联分析、可拓工程和结果整合。利用灰关联分析和可拓工程的方法可以对搜索结果进行综合评估,排除不准确或低质量结果的影响,提高整合结果的准确性。灰关联分析和可拓工程方法为用户提供决策支持

20、,帮助用户更好地理解和评估搜索结果,从而做出更明智的决策,满足用户对信息获取的需求。后续可以引入用户参数选择,对关键字数据项进行权重调整,以获得更符合用户期待的结果。参考文献:1 房悦.基于向量空间模型的网络信息智能检索算法J.信息与电脑(理论版),2022,34(14):8688.2 聂为之,王岩,杨嵩,等.基于循环生成对抗网络的跨媒体信息检索算法 J.计算机学报,2022,45(7):15291538.3 梁丰.网络信息检索及其发展趋势研究 J.网络安全技术与应用,2021(9):174176.4 喻芳宇,高胜哲.基于灰关联分析的培养方案质量测评模型研究 J.电子技术与软件工程,2023(

21、5):241244.5 徐英,李满君,段振兴,等.基于灰色关联分析的短期电力负荷预测系统 J.电子设计工程,2022,30(20):185188,193.6 王枫,周斌,胡济洲,等.基于灰色关联分析的电网设备利用率评估研究 J.机械设计与制造工程,2022,51(4):127130.7 SALTON G,BUCKLEY C.Termweighting approaches in automatic text retrievalJ.InformationProcessing&Management,1988,24(5):513523.8 蔡文,杨春燕.可拓学的应用研究、普及与推广(综述)J.数学的

22、实践与认识,2010,40(7):214220.9 杨春燕,蔡文,涂序彦.可拓学的研究、应用与发展J.系统科学与数学,2016,36(9):15071512.10 李桥兴,杨春燕.可拓集无量纲一维关联函数 J.系统工程,2014,32(11):154158.Application of grey correlation analysis and extendable engineering ininformation retrieval systemZhou Feng*,Wang Zheng(School of Computer and Artificial Intelligence,Sout

23、hwestern University of Finance and Economics,Chengdu 611130,China)Abstract:The purpose of this study is to explore methods for designing intelligent information retrieval using extendable fuzzymodels.For various information retrieval modes,we will analyze,compare,and combine fuzzy theory,gray associ

24、ation analysis,extension theory,and extendable association functions to improve their search accuracy and improve the usability of obtained data.Inthis paper,we successfully apply these theories to intelligent information retrieval.We designed an intelligent summary search engine that can help users

25、 get results from multiple major search engines by entering keywords,perform gray correlation analysis andother processing on the results,automatically filter out relevant content from the results,and sort the output in descending order byweight to provide users with better results.Keywords:grey correlation analysis;extensible engineering;information retrieval 54

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服