基于智能优化算法的自然语言语义相关度计算模型.pdf

资源描述

1、信息记录材料年月第卷第期基于智能优化算法的自然语言语义相关度计算模型行久红（郑州科技学院大数据与人工智能学院河南郑州）【摘摘要要】常规的语义相关度计算模型多数采用深度学习原理构建设计而成，模型运行流程复杂，收敛速度较慢，语义斯皮尔曼相关系数较低，无法显著提升自然语言语义相关度计算结果的精度。针对此问题，引入智能优化算法，提出了一种全新的自然语言语义相关度计算模型，选择与自然语言文本特征适配度较高的文本编码器，全面提取文本中的重要语义信息，将计算模型无法识别的文字化信息处理为模型能够识别的文字化信息，并扩大数据集，融合不同类型的文本数据，使文本数据格式保持一致。实验分析可知，提出的

2、模型具有良好的性能优势，自然语言词语对的斯皮尔曼相关系数值均较高，语义相关度计算结果的精度得到了显著提升。【关关键键词词】智智能能优优化化算算法法；计计算算模模型型；自自然然语语言言文文本本；数数据据集集处处理理【中中图图分分类类号号】【文文献献标标识识码码】【文文章章编编号号】（）作者简介：行久红（），女，河南孟州，硕士，助教，研究方向：文本挖掘、语音识别。引言语义相关度在广义角度上分析，指的是两个词语之间的相关程度，能够从某种程度上反映词语之间的关联性。通俗来说，即能够通过一个词语，联想到另外一个意思相近的词语。传统的语义相关度多数采用布设语境的方式完成，在该语境下，计算并分析两个词语同时

3、出现的可能性，进而根据计算分析结果衡量词语语义相关度。此种计算衡量方式具有一定的弊端，容易将语义相关度与语义相似度混淆。经过众多学者研究发现，语义相似度指的是两个不同词语之间存在的相似性，而语义相关度指的是两个不同词语之间的关联，具有显著差异。根据以往学者的研究结论可以得知，若两个不同的词语语义相似，它们之间的语义也一定相关，反之，若词语语义相关，但是其语义不一定相似。通过该结论可以得出：语言语义相似度属于语义相关度计算的重要组成部分。科学合理的语义相关度计算方法至关重要，能够为现代化信息检索、海量文本分析、自然语言处理研究、自然语言机器翻译等领域提供有力的数据支持，属于一项基础性的研究工作。

4、智能优化算法能够为语义相关度计算提供一定的帮助，通过简单信息处理单元的交互作用，求解分布式问题，收敛速度较快，在多设计变量方面应用优势显著。基于此，为了提高自然语言语义相关度计算方法的可行性，优化相关度计算结果，本文引入智能优化算法，设计了一种全新的自然语言语义相关度计算模型。自然语言语义相关度计算模型设计选取自然语言文本编码器本文设计的基于智能优化算法的自然语言语义相关度计算模型中，首先，需要根据自然语言文本的具体情况与特征，选取与之适配度较高的编码器，通过文本编码器，解决后续语义相关度计算模型训练收敛问题，激励模型的运行。综合考虑后，本文选取卷积神经网络（，）文本编码器，包含了卷积计算的

5、前馈神经网络，具有良好的性能优势。首先利用自然语言文本编码器，选择并创建一个完整的局部计算块，将其遍历在整个相关度计算网络中。其次将计算块包含的所有节点，添加到网络下层结点中，使用过滤器，扫描其他位置的输出节点，使各个节点的权重与偏移量共用。利用编码器，构建自然语言文本矩阵，输入相应的数据信息，并陈列数据信息。在此基础上，使用一个的卷积核，对文本图像进行卷积计算，获取其卷积特征，通过不同的通道（），匹配图像颜色模型。抓取图像中的细小零件，组装成完整的图片信息。对自然语言文本进行向量化操作，提取语言文本中的重要语义信息。由于多数自然语言的文本长度为固定值，在语义信息提取时，可以对卷积核的宽

6、度进行设定。施加不同权重的卷积核，在自然语言文本中滑动，尽量全面提取自然语言文本中的重要语义信息。最后添加操作，减少自然语言文本编码器的拟合，提高自然语言文本中语义信息提取的精度。自然语言文本数据集处理与融合完成自然语言文本编码器选取后，实现了自然语言文本中重要语义信息提取的目标。接下来，对等待计算语义相关度的自然语言文本数据集进行处理与融合，为后续语义相关度计算模型构建提供基础保障。对自然语言文本数据集进行全方位的识别与分析，找出语义相关度计算模型可能无法识别的文字化信息。自然语言文本数据集处理主要包括三个部分，分别为自然语言文本停用词去除处理、自然语言文本归一化处理、自然语言文本向量化

7、处理，需要特别注意，以上处理方式仅针对中文自然语言文本数据集，而英文自然语言文本数据集处理中，需要采用工具包，进行文本分词操作。（）自然语言文本数据集停用词去除处理。停用词主要包括文本数据集中的部分功能词，例如介词、连词等无任何实际意义的词语，还有词汇词，即使用极其广泛，但可有可无的词语。采用软件，生成有针对性的停用词表，以智能化与自动化的过滤方式，过滤删除以上两类停用词，节省存储空间，提高自然语言文本数据集词信息记录材料年月第卷第期语的搜索效率。（）自然语言文本数据集归一化处理。将数据集中存储格式不同的各个文本进行归一化处理，使文本长度保持一致，达到自然语言文本规定的长度。（）

8、自然语言文本数据集向量化处理。将自然语言文本中的文字，经过词嵌入表的转换作用，转换为高维稠密向量，并将其作为输入层，输入到后续构建的语义相关度计算模型中。设定自然语言文本数据集向量为固定长度，该长度需要囊括大部分自然语言文本的长度，在此基础上，对各个文本的长度进行补充，初步向量化文本的内容，获得文本一维向量，生成自然语言文本词向量库。完成自然语言文本数据集处理后，接下来，对文本数据集进行融合。将多个数据集进行一致化处理，统一其内容与特征，转换器处理格式，将数据集中海量不同类型的数据进行融合，进而扩大数据集。除了能够融合数据类型以外，还能够融合数据功能，逐步扩充完善自然语言文本数据集，提高数据集

9、的泛化能力。设定自然语言文本数据集融合采用的编程语言为，采用的工具包为。将用户输入的自然语言文本数据集作为孪生网络模型的输入层，通过孪生网络模型，比对融合后的数据集文本特征，使自然语言文本数据集处理与融合的结果达到最优化目的。基于智能优化算法构建自然语言语义相关度计算模型基于上述自然语言文本数据集处理与融合完成后，实现了文本数据格式一致化的目标，为相关度计算模型构建提供了基础保障。在此基础上，利用智能优化算法，计算自然语言语义相关度，构建语义相关度计算模型。设计智能优化算法的运行流程，如图所示。如图所示，首先基于群体智能优化算法，设置并初始化自然语言文本种群。

10、其次根据文本种群初始化结果，计算种群的适应度函数。设定智能优化算法的终止条件，将种群的适应度函数计算结果与设定的终止条件进行对比。若符合智能优化算法的终止条件，则输出智能优化算法的全局最优解；若不符合智能优化算法的终止条件，则更新种群，并删除原始解决方案，寻找另一个全新的解决方案，再次计算种群适应度，直至满足算法终止条件为止。通过智能优化算法的不断迭代，获取最终满意度良好的最优解，完成智能优化算法的整体流程。在此基础上，利用智能优化算法，寻找自然语言文本的义原最优解，根据文本义原的上下位关系，构建自然语言义原层次结构体系，利用语义相关度表示。设定自然语言文本中个义原在层次结构体系中的路径距

11、离为，其语义相关度计算表达式为：（，）（）（）其中，、分别表示自然语言文本中的两个义原；表示语义相关度计算中的一个可调节参数。通过计算，得图智能优化算法运行流程出文本语义相似度。根据语义相关度，将自然语言文本中义原的重要性进行分类，分类结果如表所示。表自然语言义原分类编号种类说明表示基本义原表示自然语言本文中两个概念在某一部分的相似度（，）辅助基本义原表示除基本义原以外的所有基本义原描述式，属于基本义原集合（，）关系义原属于一个特征结构，对应语义表达式中所有关系义原描述式（，）符号义原属于一个特征结构，对应语义表达式中所有关系符号的描述式（，）由表可知，本文设计的自然语言义原分类结果，

12、将分类结果的个义原值进行线性叠加，得出个自然语言词语、的整体相关度，计算表达式为：（，）（，）（）其中，表示相关度计算模型的可调节参数。通过计算表达式，得出自然文本义原的综合相关度结果，使其文本相关度依次递减，全面提高自然语言语义相关度计算结果的精度，完成相关度计算模型设计的目的。实验分析实验准备上述内容，便是本文利用智能优化算法，设计的自然语言语义相关度计算模型的全部流程。在此基础上，进行了如下文所示的实验分析，检验提出计算模型的可行性与信息记录材料年月第卷第期应用效果，避免直接投入使用后存在异常，降低相关度计算结果的精确度。此次实验以自然语言领域本体作为实验数据，该领域本体

13、是结合自然语言研究指南对语言的权威说明，通过生成的。在实验开始前，选取实验所需的工具，搭建实验测试环境。本次实验所需的工具及说明，如表所示。表实验工具及说明编号工具名称说明自然语言领域本体构建及存储自然语言语义矩阵运算、自然语言语义相关度计算自然语言词法分析系统，对网页语言文本进行分词处理使用服务器，搭建此次实验测试的环境。设置服务器的内存为；硬盘为；系统为；网卡为个万兆网卡，个千兆网卡；开发平台为框架；开发语言为；字向量训练工具为。对自然语言本体概念数据集进行全方位的存储管理，通过接口的解析功能，解析自然语言本体数据。利用自然语言信息内容、语言属性与语义距离等因素，

14、分别计算自然语言领域中概念对之间的语义相关度。由于自然语言网页文本较长，数量较多，为了避免影响实验结果的准确性，本文将所有语言词语对划分为了组，避免实验结果存在偶然性。结果分析为了提高实验结果的说服性，在实验中，引入对比分析的方法原理，将上述本文提出的基于智能优化算法的自然语言语义相关度计算模型设置为实验组，将黄承宁等提出的基于深度学习表示的相关度计算方法、薛毅等提出的基于卷积神经网络的相关度计算方法分别设置为对照组与对照组，分别对种方法的应用效果作出检验。选取斯皮尔曼相关系数作为此次实验的评价指标，在广义角度上指的是语言语义相关度等级变量之间的皮尔逊相关系数，其数值越大，表示语言语义相

15、关度计算结果精度越高，方法的有效性越高。评价指标计算表达式为：()()()()（）其中，表示斯皮尔曼相关系数；、分别表示自然语言样本被转换成的等级数据；、分别表示样本数据平均值。实验过程中，忽略变量之间的连接，分别计算种自然语言语义相关度计算完毕后，其对应的斯皮尔曼相关系数值，并绘制如图所示的评价指标对比示意图。图实验评价指标对比示意图图中，表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对；表示自然语言词语对。通过图的评

16、价指标对比结果可以看出，本文提出的基于智能优化算法的自然语言语义相关度计算模型应用后，较另外两种方法相比，各组自然语言词语对的斯皮尔曼相关系数值均较高，表明其语义相关度计算结果更加精确，提出计算模型的有效性与可行性均较高，可以投入大规模使用。结语综上所述，为了改善传统自然语言语义相关度计算模型在实际应用过程中，计算结果精度较低、计算流程复杂的问题。本文在传统相关度计算模型的基础上，引入智能优化算法，作出了改进设计。通过研究，充分地利用了网络资源，提高了语言语义相关度计算结果的精度，在自然语言文本聚类、分类方面优势显著。提出计算模型的实用性较强，能够应用于自然语言释义识别任务中，结合义项向量使用，提取更深层次的语义特征，进而形成完整的文本语义特征向量，性能表现良好，计算精度与效率较高，具有良好的应用前景。【参考文献】原新梅，丁俊，冉启斌方言相似度计算与影响因素的量化：以辽宁胶辽官话为例语言科学，（）：黄承宁，李双梅，景波基于深度学习表示的医学主题语义相似度计算研究计算机与数字工程，（）：薛毅，李政翰，王斌，等基于卷积神经网络的文本语义分析系统信息记录材料，（）：向军毅，胡慧君，刘茂福，等基于的新闻实体与正文语义相关度计算模型中文信息学报，（）：王云飞，赵霞，屈美霞，等利用文本相似度计算的装配工作指令评估控制工程，（）：

展开阅读全文