收藏 分销(赏)

基于融合矩阵的文本相似度计算实现检索结果聚类.pdf

上传人:自信****多点 文档编号:2995580 上传时间:2024-06-12 格式:PDF 页数:7 大小:1.46MB
下载 相关 举报
基于融合矩阵的文本相似度计算实现检索结果聚类.pdf_第1页
第1页 / 共7页
基于融合矩阵的文本相似度计算实现检索结果聚类.pdf_第2页
第2页 / 共7页
基于融合矩阵的文本相似度计算实现检索结果聚类.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基 于 融 合 矩 阵 的 文 本 相 似 度 计 算 实 现 检 索结果聚类赵悦阳崔雷(中国医科大学附属盛京医院图书馆沈阳 中国医科大学医学健康管理学院沈阳 )摘要目的 意义 弥补医学文本语义表示方面的不足,实现 数据库检索结果聚类。方法 过程 采用 系数和 构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将 数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果 结论 基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。关键词文献检索;文本聚类;融合矩阵;文本相似度 中图分类号 文献标

2、识码 ,;,;修回日期 作者简介赵悦阳,副研究馆员,发表论文 篇。基金项目辽宁省社会科学规划基金资助项目(项目编号:)。引言文本聚类根据语义相似性将文本分组 ,是网络索引、文本摘要、内容挖掘和信息检索等领域重要的研究手段 。对 搜索结果进行聚类有助于科研人员快速理解相关子主题,并揭示生物医疗研究间的联系。此领域研究的关键是将医学文医学信息学杂志 年第 卷第 期 ,本的高维稀疏数据转化为实质性的语义表示,进而提高聚类效果。文本的语义表示对文本聚类的效果至关重要。在传统聚类中,文档通常采用向量空间模型(,)或词频 逆文档频率(,)表示,但这导致特征空间较大且稀疏,影响了模型性能。与之相对,相似度

3、算法更适合处理高维稀疏数据,能够改进聚类效果 。基于“词 上下文”矩阵的语义相似性计算方法,利用语义关系动态构建并分析矩阵 ,其中矩阵根据不同上下文(如文档、相邻词等)的关系而变化,导致矩阵稀疏度不同。通常,“词 文档”矩阵最为稀疏,对计算效果影响较大。本研究通过 个核心步骤,改善医学文本检索结果的聚类效果。第 步:采用一种高效的模型来精确表述文档集合。通过整合融合技术,构建一种保留原邻近性信息及反映 种输入相似性矩阵中高阶关系能力的矩阵。第 步:为了简化医学文本的复杂性,实施降维处理。基于矩阵的方法将文本数据向量化,得到更易于处理的低维数据表示,以便后续分析和可视化。第 步:为了方便用户理解

4、不同的文本集合,开发一种标签生成技术。利用词 文档共现矩阵,对文档中出现的关键词进行统计和排序,进而为每个文本类簇生成能够代表其内容的标签。第 步:为确保聚类结果的逻辑性和用户友好性,利用先进的聚类算法来确定聚类的最佳数量。这不仅提高了聚类的准确性,也使结果更容易被终端用户理解和使用。期望通过上述措施为医学信息检索提供一个更精准和用户友好的聚类框架,以便在海量的医学数据中迅速定位重要信息,促进医学研究和实践的效率。相关研究 聚类算法常用的文本聚类算法包括基于划分的、基于密度的和基于层次的。是一种广泛使用的划分聚类算法,其中一个聚类中心与该聚类的其他数据点之间的距离平方和被最小化,以获得给定数据

5、集的最佳数据划分。是标准 的 变 体,用 于 处 理 大 数 据 集。是一种自下而上的层次聚类方法。也是一种常见的层次聚类。常用聚类算法的基本原理、主要应用、优势与不足等情况,见表 。表 常见的聚类算法比较聚类技术流行算法基本原理主要应用优势不足基于层次的聚类技术 、通过使用启发式“自顶向下”拆分或“自底向上”合并技术生成聚类树(或树状图)主题发现、员工 客户分组、软件聚类、绩效评 价、主 题 演 化、智能问答、舆情分析定义距离比较容易、自由;不用预先指定集群数目;发现层次间的关系;可以发现任意形状的簇计算复杂度高,运行慢;对异常值敏感基于划分的聚类技术 、将数据集划分为指定数目,通过对聚类中

6、心的迭代重置,达到“聚类内部点足够近,类间点足够远”的目标效果,完成样本集的最优得分主题划分、数据挖掘、模式识别、金融风控、主题发现容易实施、灵活,运行快;可扩展性较好;对凸形簇效果好;容易解释算法依赖于数据;依赖初始条件;得不到全局最优解;要预先指定集群数量基于密度的聚类技术 基于“簇”和“噪声”的直观概念,根据样本的紧密程度,将密集区域当作一个一个的聚类簇弹幕分析、热点话题分析、主题抽取、舆情分析、网络热点和媒体事件监测不用预先指定集群数量;对噪声不敏感;擅长找到离群点算法参数复杂,对结果影响大;高维数据聚类有困难 文本语义表示 表面文本相似度文本语义表示的主要研究方向包括表面文本相似度和

7、语义相似度 。表面文本相似度直接计算原始文本的字符串序列或字符组合的匹配程度或距离,衡量相似度,其研究历史较长,且原理简单、易于实现。其中,、系数、系数、系数用于计算字医学信息学杂志 年第 卷第 期 ,符串序列或字符组合的匹配程度,比较样本集合之间的相似和差异。基于向量空间模型的方法则是通过空间距离上的相似度表达语义相似度。常用余弦距离、欧式距离将术语表示成向量。但是这种方法为了方便运算,只简单地将文本处理成向量,并不能含有语义信息。系数用于比较样本集之间的相似性和差异性,是计算机领域检验文本相似性的常用方法 。由于集合元素互不相似,用于文本相似度计算时不考虑词在文本中出现的频率。谢红 基于词

8、频比改进了 相似度算法。医学文本的特征是不同主题之间的关键词基本不同,而同类主题的关键词相似度较大,决定了采用 系数判断医学文本间的相似度是不错的选择 。语义相似度基于矩阵分布的模型是文本语义表示的另一个方向,其针对词语发生的上下文关联构建矩阵。上下文关系可以是词所在的文档、词与邻近词或目标词的关系,使用的上下文不同,则构成的矩阵稀疏程度也不同,其中“词 文档”矩阵最稀疏,计算效果也最差。矩阵里的数值除了使用词与上下文的共现次数表示以外,许多研究还会使用 或取对数,对元素值实现加权或平滑。最后使用奇异值分解或非负矩阵分解等技术将原始的“词 上下文”矩阵从高维稀疏向量压缩为低维稠密向量 。综上,

9、本文提出利用 系数和 构建融合矩阵的方法,在保留原始邻近信息的同时,还保留 个输入相似性矩阵所隐含的高阶关系,以弥补医学文本语义表示方面的不足,在聚类分析 检索结果时,提升聚类质量。研究框架与方法使用 抽取样本的重要关键词,将数据降维。构建融合矩阵,分别训练 ,和 聚类算法,并以这 种算法作为基础训练集成矩阵。对 检索结果文献集作聚类分组,生成每一类别的特征词语,随后评价聚类结果和类别标签。本实验通过 编程实现。研究框架,见图 。图 研究框架 数据获取在 数据库中以任意 个 主题词进行检索。实验选取的主题词是:,;,;。分别提取检索结果的标题和摘要,并将其混合,作为数据集。抽取文档核心词,生成

10、 关键词应用预训练的 模型提取样本的 关键词。是非常基本但功能强大的关键词提取方法,使用 嵌入模型提取词 短语,使用简单语义相似度查找与文档本身最相似的关键词短语,可免除去停用词的步骤 。构建相似性融合矩阵 构建词 词相似度矩阵设关键词列表为 ,文档集合为 ,。采用 算法计算词和词的相似性。词语 的 列表 ,表示包含词 的文档 的索引值为 。公式为 ,(),将 作为输入,计算两词之间的相似性分数。最终生成词 词相似性矩阵 ,其中 ,()。构建词 文档相似性矩阵词 文档相似性矩阵可以衡量词语和文档的相似性,采用 算法计算词与文档的相似性。根据上一步得到的 构建词 文档 共现矩阵 ,其中 表示词语

11、 存在文档 中。医学信息学杂志 年第 卷第 期 ,的位置为:(,)(,)(,),()(,),()(,)()其中,指词 在文档 中出现的次数,指文档 中所有关键词的数量,指文档总数,指包含词 的文档数量。通过式()计算词语和文档的相似性分数,生成一个词 文档相似性矩阵 ,其中当 时,(,);当 时,。构建文档 文档相似性矩阵采用 算法构建文档 文档相似性矩阵,与词 词相似性矩阵类似。计算文档 的 列表 ,其中 ,表示存在于文档 的词语 的索引值。将 作为 公式的输入,计算两文档间的相似性分数。最终生成一个文档 文档相似性矩阵 ,其中 (,)。构建融合矩阵根据前面得到的 和 矩阵,生成融合矩阵 。

12、定义:,()()其中,表示第 个关键词与第 个文档的相似性分数,表示第 个关键词与第 个文档的相似性分数,表示关键词数量。可理解为文档 和 之间的相似性增益分数。融合矩阵公式揭示了两个文档可以通过其共有的关键词与文档自身的相似性分数的求和平均提升相似性增益。求和后的平均是为了防止某些文档的相似性增益过大而进行的归一化处理。训练集成聚类模型根据 相似矩阵分别训练 ,和 聚类算法,将结果作为特征,利用 训练。具体步骤如下。第 步:训练 种聚类后,每个聚类结果为一个相似性矩阵 。第步:利用聚类算法 对若干个 矩阵分别加权聚类,然后将这些聚类结果平均得到一致相似度矩阵 。第 步:基于 矩阵,用 方法获

13、得聚类集成结果。聚类评价使用聚类纯度()、分数和调整兰德系数(,)评价聚类效果。聚类纯度将聚类的正确样本数除以样本总数,也称为聚类准确度,类似于分类任务中的准确率。,()()分数是精确率和召回率的调和平均值,可以准确地评价聚类算法的性能。其将聚类视为决策过程,当且仅当两个文档相似时,分组到同一聚类中。精确率 ()召回率 ()表示将两个相似的文档分组为一个簇(相同 相同),表示将两个不同的文档放入不同的集群(不同 不同),表示将两个不同的文档分组到同一个集群中(不同 相同),表示将两个相似的文档分组到不同的集群中(相同 不同)。(精确率 召回率)(精确率 召回率)()调整兰德系数在 年被提出,假

14、设模型是随机分布的,每一类和类簇上的节点数目是固定的。()()()()()()生成聚类特征词语聚类以后输出聚类标签 ,其中 ,表示聚类的簇数量。针对每个簇,利用词 文档共现矩阵 对文档包含的关键词分别计数并排序,取前 个关键词,作为每个聚类簇生成的特征词语。从这 个词中,以高频前 位的词作为聚类标签词语。医学信息学杂志 年第 卷第 期 ,实验结果与分析数据集包括 种类别和 个文档。在聚类阶段选择聚类数目有很多标准 ,要根据研究目标确定。本研究将聚类数目设定为 。不同聚类数目前提下表现最好的降维方法和算法,见表 ,聚类数为 时,算法的聚类表现最好。聚类数从 到 递增时,聚类效果越来越好,而从到

15、则越来越差。聚类数目为 时不同聚类算法的聚类效果,见表 ,降维后 的聚类效果最佳。表 不同聚类数目设定下表现好的聚类算法聚类算法降维方法聚类数(个)聚类纯度 表 基于融合矩阵和共现矩阵的聚类算法结果()矩阵构建聚类算法降维方法聚类数(个)聚类纯度 融合矩阵 共现矩阵 比较基于融合矩阵与共现矩阵的结果,算法基于 降维后共现矩阵效果好,但是 降维后共现矩阵效果远不如融合矩阵。算法同样如此。基于融合矩阵的集成算法()综合看略好于共现矩阵的结果。但是集成算法的结果并没有单独一种聚类算法有优势。说明融合矩阵的设计可以免去集成聚类的烦琐步骤,又能提高聚类效能。降维后的 算法 个类别的颜色没有重叠或分布不均

16、,类内的点足够近,类间的点足够远,证明文献集得到很好的分组,见图 。图 基于 降维后的 算法聚类效果医学信息学杂志 年第 卷第 期 ,将聚类后类簇数量与原始文档数比较,簇 和簇 的数量与原始文档接近;而簇 、簇 和簇 基于融合矩阵的数量与原始文档数更接近,基于共现矩阵的簇 和簇 则相差很多,见表 。表 算法聚类后类簇数量与原始文档数比较文档名簇 基于共现矩阵基于融合矩阵 总数 本文开展了预实验,分别使用 、和 相似性构建融合矩阵,结果显示,使用 训练 算法的结果最好。年 等 构建 框架,将词 词、词 文档和文档 文档矩阵共同嵌入到框架内,同时完成文档聚类和标签生成。这种构建嵌入框架的方式是通过

17、计算余弦相似度。本文构建的融合矩阵是通过 计算文本相似度,对于有重复词语的文本,如果应用余弦计算相似度会变化,而应用 计算的重复词的相似度则不变 。这是 的优势,而且本实验也证实了其较共现矩阵得到的聚类效果好。分别归纳每一类别中融合矩阵生成的频次最高的 个词语。通过 算法生成的特征词只出现在自己类里,其他 类中没有出现,充分满足聚类标签表现类别含义的要求。而其他 种聚类得到的特征词,都存在高频词在其他类中出现的情况,比如 ,。对于每个簇,按出现频次由高到低,选择前 个短语作为标签词语,并与下载文献时选取的 主题词比较,见表 。是视疲劳,标签词语是 ,和 ,组合起来是眼睛工作带来的症状,与视疲劳

18、接近;是肾小球肾炎膜增生,标签词语是 ,和 ,说的是肾脏某些物质增殖产生沉淀导致肾炎对生命有影响,也有增生肾炎的意思。其他 类标签词语基本与主题词含义相同。表 标签词语与 主题词比较聚类数目标签词语(个)主题词(个);综上,基于融合矩阵的聚类效果整体比基于文档共现矩阵的好,文献集分组良好;基于融合矩阵训练集成聚类时,聚类效能反而下降,说明融合矩阵的设计可免去集成聚类的烦琐步骤,用简单的 算法就能提高聚类效能;同时提取的描述类别的高频词也能很好地区别类别含义,所以融合矩阵的设计对于学术文本聚类描述的任务是有效的。结语本文研究通过构建融合矩阵来提高文本聚类效果的方法,主要探讨 个问题:如何构建有效

19、的融合矩阵;基于融合矩阵的聚类效果是否有所提升;提出基于融合矩阵集成聚类的方法,并探讨其聚类效果;生成聚类标签,描述聚类结果。通过利用融医学信息学杂志 年第 卷第 期 ,合矩阵文本聚类效果显著提升,不仅在文档分类方面表现出色,也能有效提取有代表性的词汇来描述每个类别的特征,证实该方法在处理学术文本聚类任务方面的有效性。本文仍存在不足之处。一是数据集仅使用 数据库,应将融合矩阵的构建扩展到更多类型的文本资料库,验证聚类效果。二是提取的聚类描述关键词的语义粒度较粗,只能反映查询结果内主题间的关系。应根据细粒度文本表示概念 ,开展知识单元细粒度层面的分析,例如论文中的研究范畴、方法、数据、指标、指标

20、值等信息提取,为医学数据的智能分析提供重要的方法支撑。未来可通过本文的研究方法将 的检索结果聚类,通过提供关键词简明扼要地描述检索结果,反映特定查询的内容分布。在此基础上,通过细粒度分析,从文本中识别研究范畴、研究方法、实验数据和评价指标及取值等知识,推出面向不同知识层次的定制服务,提高医学图书馆的服务质量。利益声明:所有作者均声明不存在利益冲突。参考文献 薛菁菁,秦永彬,黄瑞章,等 :一种补充语义信息的深度变分文本聚类模型 数据分析与知识发现,():冯小东,惠康欣 基于异构图神经网络的社交媒体文本主题聚类 数据分析与知识发现,():刘婷,张娴,许海云,等 面向技术路径识别的文本挖掘方法应用研

21、究述评 情报理论与实践,():牛奉高,张亚宇 基于共现潜在语义向量空间模型的语义核构建 情报学报,():肖悦臖,李红莲,张乐,等 特征融合的中文专利文本分类方法研究 数据分析与知识发现,():高洪臻 基于杰卡德相似系数的 用户检索行为研究 图书馆研究与工作,():张晓琳,付英姿,褚培肖 杰卡德相似系数在推荐系统中的应用 计算机技术与发展,():,赖辉源,王春柳,杨永辉,等 文本相似度计算方法研究综述 情报科学,():孙海霞,李军莲,吴英杰 基于 的机构归一化研究 医学信息学杂志,():,:,:,杨秀璋,夏换,于小民,等 基于特征词典构建和 算法的中文百科文本聚类研究 计算机时代,():,陈氢,冯进杰 融合地理标签数据的个性化信息服务应用研究 现代情报,():于鹏 逻辑公式间的 距离及其应用 计算机科学与探索,():谢红 基于词频比的改进 系数文本相似度计算 内江科技,():王安瑾 一种基于 的改进新闻文本聚类算法 计算机技术与发展,():来斯惟 基于神经网络的词和文档语义向量表示方法研究 北京:中国科学院大学,:,():,():,():余丽,钱力,付常雷,等 基于深度学习的文本中细粒度知识元抽取方法研究 数据分析与知识发现,():医学信息学杂志 年第 卷第 期 ,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服