基于蜜蜂知识图谱智能问答系统.pdf

资源描述

1、2023 年第 7 期108计算机应用信息技术与信息化基于蜜蜂知识图谱智能问答系统曾攀1 袁黎晖1ZENG Pan YUAN Lihui 摘要针对农业信息化在蜜蜂领域缺失的问题，提出了一定规模的蜜蜂领域知识图谱的构建。首先，通过爬虫程序获取到真实有效的数据集，再经过相似度计算进行知识融合。然后，利用图数据库 Neo4j 对知识进行存储，完成蜜蜂领域的知识图谱的构建。最后，通过命名实体识别和问句意图识别任务分解智能问答，并通过 Flask 框架搭建可视化的页面，最终实现了智能问答系统。实验结果表明，所设计的智能问答系统在蜜蜂知识问答领域，在一定程度上弥补该领域的空白，也为农业信息化落地提供了

2、思路。关键词知识图谱；农业信息化；命名实体识别；预训练语言模型；智能问答系统 doi：10.3969/j.issn.1672-9528.2023.07.0271.江西农业大学南昌商学院江西九江 3320200 引言蜜蜂作为我国主要的资源昆虫之一，具有重大的经济价值和生态价值。由于其养殖区域广、覆盖种类复杂多样，养殖户在养殖过程中会遇到各种各样的问题，受限于各种客观原因，他们难以解决。随着互联网的高速发展，农业信息化的需求正爆炸式增加，但受限于农业资源离散且质量不高，市面上并没有一些好的解决办法。知识图谱1是一种能够描述真实世界客观存在的实体、概念及实体之间关联的关系的语义网络。知识图谱技术

3、提供了一种更好的组织、管理和推理互联网海量信息的能力，目前知识图谱与深度学习结合在一起，已经成为推动人工智能发展的核心驱动力。知识图谱分为开放领域知识图谱和垂直领域知识图谱，开放领域知识图谱侧重于知识的广度，囊括了海量常识性数据，其典型代表有大规模开放的知识图谱 Yago、DBPedia 和 Freebase等；垂直领域知识图谱通常规模较小且更侧重于领域内的知识，其典型代表有地理领域知识图谱 Geonames、中医药领域ZhongKG。在蜜蜂领域，目前业界与学术界都少有相关的开源的知识图谱。如从头构建一个垂直领域知识图谱，通常需要业内专家人工设计好 schema 并标注数据，通常需要一定的时间

4、周期和人力物力。为此本研究基于多源异构数据2，对数据进行结构化处理，利用图数据库 Neo4j3构建蜜蜂领域知识图谱，并利用命名实体算法和对属性链接算法等关键步骤实现了智能问答系统，为增强用户体验与系统可视化程度，本研究又利用 Flask 框架实现了前端智能问答页面。1 蜜蜂知识图谱的构建1.1 数据的获取与预处理数据质量和数据规模是影响知识图谱的两个极其重要的因素，对于垂直领域知识图谱而言，如何获取高质量大规模的数据仍然是一个具有挑战性的问题。为了获取高质量大规模的蜜蜂数据，本研究采用多源异构数据充实数据的质量与规模。其数据来源于两个方面:1)基于 CN-DBpedia 中文通用百科知识图谱，

5、CN-DBpedia 是由复旦大学知识图谱团队研发并维护的一个当前中文领域最大规模的通用化结构化百科知识图谱。由于 CN-DBpedia 是对百度百科的数据进行一系列复杂清洗后的高质量数据，其涵盖了各类领域的知识，有金融、医疗、地理、人文、农业等领域专业知识，本研究对农业领域知识进行筛选抽取4，最终处理为“实体，属性，属性值”这种形式的数据集。2)基于蜜蜂垂直网站酷蜜蜂网站()的开源数据，通过爬虫框架 Scrapy编写爬虫程序，对获取到的数据进行数据去重和异常值处理，最终为与上述同样形式的数据集，以方便后续对数据进行融合。图 1 为处理后的没有噪音的文本语料。图 1 处理后的文本语料 2023

6、年第 7 期109计算机应用信息技术与信息化1.2 基于 Word2vec 的相似度计算为了保证图谱的质量与规模，本研究选用了多源异构的数据，这也导致数据存在一定程度的碎片化。如“中华蜂”这一实体及其属性与属性值重复出现在 CN-DBpedia 和酷蜜蜂网站中。为了保证图谱的质量，需要避免知识过度碎片化，本研究利用蜜蜂相关书籍作为文本语料。通过 Word2vec 训练好的词向量模型5将词转换成向量以达到自然语言向数值数据转换的目的。在此基础上，通过对文本相似度的计算以达到知识融合的目的。文本相似度6的计算方法主要有基于余弦相似度计算方法、基于逆文本频率和余弦相似度计算方法以及基于 BM25相

7、关性评分计算方法7。余弦相似度计算是将两个自然问句经过 Word2vec 转化成向量后，计算向量之间的夹角，夹角的余弦值越大相似度越高，两个文本内容重合度也越高。假定 t1和 t2是两个 n 维向量，即 t1=(x1,x2,xn)，t2=(y1,y2,yn)，它们的余弦相似度计算计算公式如下:()()()()=niniiiniiiyxyx11221cos （1）对于两个自然语言文本做相似度计算，关键词的相似度计算是极其重要的考虑因素。逆文本频率 idf 是衡量词汇是否是关键词的决定性指标，因此可将一个词 idf 作为其权重参与文本的相似度计算。N 为语料库中文档的数量，Di为词w 出现文档的数

8、量，v(wi)是自然语言文本句子中第 i 个词 wi的向量。idf 计算公式和句子向量公式如公式(2)和公式(3)所示。()+=1logidfiDNw （2）()()()=miiiwidfwvsvectors （3）BM25相关性评分计算是基于概率检索模型提出的算法，其主要思想是对句子 X 分词，得到分词后的词表 wi,wi 与需要比较的句子 T 计算相关性得分，最后 wi 与 T 的相关性得分进行加权求和，权重为词的 idf 值。fi是词 wi在句子 X中出现的频率，avgl是所有句子平均长度，tl是句子T的长度，k1是调节因子，通常设置为 0.75。X 与 T 的相关性评分公式如公式(4)

9、所示。()()()+=avglt lbbffkfwidfTXiiiinii11,score （4）经过多次实验发现，BM25 相关性评分较为依赖语料库中词的 idf 值，其效果也不符合现实语义，偏差较大；余弦相似度计算方法是最简单最常用的方法，其效果取决于语料库的质量与规模；基于逆文本频率和余弦相似度虽然计算量是几种方法中最大的，都是其效果确实最好的。因此本研究使用基于逆文本频率和余弦相似度计算对多源异构的数据进行知识融合8。1.3 基于 Neo4j 存储蜜蜂知识图谱知识图谱的存储目前有三种存储方式，第一种是基于RDF 三元组的存储，第二种是基于图数据库的存储，最后一种是基于传统关系型数据库的

10、存储。由于传统关系型数据库无法适应知识图谱动态变化的知识，且在较大规模的知识量，其检索效率低下，一直是其被人诟病的原因。因此工业界主流的存储方式只有上述的前两种，二者的具体特点如表 1 所示。表 1 知识图谱存储方式地具体对比存储类型形式数据库代表具体特点基于 RDF三元组的存储以三元组的形式存储gStore、Blaze-Graph、RDF-3X图模型更适应 RDF 模型的语义结构更多的图算法、图数据库存储方案和查询方法基于图数据库的存储以边和节点以及属性的形式存储Neo4j、Dgraph、Tiger-Draph较高的查询效率更适应知识图谱动态的知识简洁直观地展示了知识实体基于下游的智能问答任

11、务，本研究选用基于图数据库的存储方式，以图数据库的典型代表 Neo4j 作为蜜蜂知识图谱的存储平台。由于知识规模较大，需要依次将实体表、关系表通过“LOAD”方式导入到 Neo4j 中，如图 2 是部分蜜蜂知识图谱展示形式。图 2部分蜜蜂知识图谱展示形式2 智能问答的设计与实现2.1 智能问答系统的设计智能问答一直是知识图谱落地的重要应用之一，其表现形式是用户向系统输入自然语言问句，系统通过理解命名实体识别与问句意图识别等关键步骤理解用户的问句，并在知识图谱搜索最佳答案，反馈给用户。本研究智能问答系统的构建拆分为命名实体识别任务、问句意图识别任务、答案封2023 年第 7 期110计算机应用信

12、息技术与信息化装与展示任务，如图3所示。2.2 蜜蜂命名实体识别业内主流的命名实体识别主要可以分为基于规则的命名实体识别和基于机器学习的命名实体识别9。由于做蜜蜂农业领域的实体繁琐多样，且没有统一的业内标准，很难建立一套规定的范式识别实体。为此本研究提出联合识别范式，将 AC 自动机多模式匹配算法和传统的 BiLSTM-CRF 模型联合识别用户输入的自然语言问句。具体实现方法是用户输入自然语言问句，该问句经过 AC 自动机匹配，若无法识别出实体，则将问句输入到 BiLSTM-CRF 模型，将最后的实体存储起来，用于下游的答案封装和展示。2.2.1 基于 AC 自动机多模匹配算法处理自然语言问句

13、在多模式匹配算法中，自动机多模式匹配算法(aho-corasick automaton algorithm,ACA)是最经典的算法，它是基于传统的字典树 Trie 上进行改进提出的。利用蜜蜂知识图谱中存在知识实体名字构成特征语料库。利用AC自动机算法，匹配问句中是否存在特征词。如用户输入“中锋大幼虫病应该如何治疗？”，使用actree树识别出候选关键词表中关键词，将关键词表与特征语料库进行匹配，匹配成功得到自然问句中实体。其算法伪代码如下:Input:用户输入的自然语言问句Begin:Setp 1.利用已有知识构建特征语料库 KnowledgeListSetp 2.把 KnowledgeLis

14、t 建立一个 AC 树 actreeSetp 3.利用分词将自然语言问句分割得到一个候选关键词表 keywdsLsitSetp 4.用 actree 识别自然语言问句中的关键字keywdsEndOutput:返回关键字2.2.2 基于 BiLSTM-CRF 模型处理自然语言问句BiLSTM-CRF 是基于机器学习的命名实体识别中最常用的模型，也深受研究者们喜爱，与此同时，研究者们在此基础上改进提出了很多更新的模型，如郑泳智等10人提出增强的 Bert-BiLSTM-CRF 荔枝龙眼病虫害模型。本研究将自然问句经嵌入层后输入到 BiLSTM 特征提取层进行训练，再输入到

15、CRF 条件随机场层修正结果，最后得出一个最佳候选词。将精准率 P、召回率 R 和 F1值作为模型的评价指标，其定义公式分别为(5)、(6)、(7)，模型效果如表 2 所示。识别出的实体数识别出正确实体数=P （5）样本的问句数识别出正确实体数=R （6）F1=2PR/(P+R)（7）表 2 模型效果PRF1BiLSTM-CRF0.840.860.882.3 问句意图识别问句意图识别是将用户输入的自然语言问句，将问句通过文本分类或情感分析分类到预先定义好的蜜蜂实体属性或实体关系中某一具体的链接中11，再交由下游的任务进行相应二次处理，该子任务在搜索引擎与智能问答中都被广泛运用。目前问句意图识别

16、有三种实现方法，第一种是基于规则模板的匹配，该方法虽然可以快速识别出用户的自然问句，都是需要预先定义庞大复杂的规则模板。第二种是基于传统的机器学习方法，如支持向量机、朴素贝叶斯分类等，这种方法是虽然简单易于理解，但是蜜蜂的语料文本存在着较强的专业性、稀疏性，使这类传统机器学习方法难以提取文本特征，导致意图识别效果较差。最后一种是最近几年在自然语言处理领域特别火热的预训练大模型，其中 Bert 就是大模型的深度学习模型代表，尤其其由于的提取文本语料的特征能力，已经成为文本分类或意图识别的主流解决方案。Bert 模型是 2018 年由谷歌提出的语言表示模型，它有以下几点优势:（1）作为预训练语言模

17、型，不需为过多对下游任务做微调，使其具备更强的泛化能力。（2）作为端到端的模型，其在特定应用中并不需要大量的文本语料作为训练数据，使其更适应领域小规模应用。（3）基于 Transformer双向编码器，可结合语料文本上下文进行训练，具备更强的效率。基于以上三点，本研究使用 Bert 模型实现对用户输入的自然问句进行文本分类。如表 3 所示将蜜蜂问句分为 11 种类别，每一种类别使用不同的标签标注，通过问题模板和属性标注库逆向生成了 Bert 模型的数据集，共 20981 条数据，按照 7:1:2 的比例划分训练集、测试集、验证集。表 3 蜜蜂问句标注示例关系或属性类型标签问句示例分布1A 可常

18、见哪些地方典型症状2A 发生时会有什么症状形态特征3A 长什么样描述4简单描述一下 A生活习性5A 在生活中有什么习惯生长发育6A 的发育流程是什么社会结构7A 在群体中扮演什么角色营养价值8A 的成分有哪些营养价值蜜源植物9A 能吸引哪些植物防治措施10A 的防治措施是什么食用功效11食用 A，人体会得到什么益处图 3 智能问答架构图 2023 年第 7 期111计算机应用信息技术与信息化2.4 答案封装与展示经过命名实体识别子任务和问句意图识别子任务，用户输入的自然语言问句会系统理解为一条 Cypher 语句，再基于得到的 Cypher 语句12去图数据库中查询数据。如问句“食用苹果蜜，人

19、体会得到哪些益处？”经过相应的任务，最后会得到 Cypher 语句“MATCH(n)-r:食用功效-(b)where n:entity and n.name=苹果蜜 return b.name”。上述语句在图数据库 Neo4j 中查询得到如图 4 所示结果。图 4 Cypher 语句查询结果为了增加用户的体验感和用户与智能问答系统的交互性，本研究采用开源框架 Flask 构建后端接口，并利用 Vue搭建了前端页面，用户输入蜜蜂自然语言问句，系统会自动给与最佳回答，如图 5、图 6 所示。图 5 智能问答页面展示 1 图 6智能问答页面展示 23 结论本研究以智慧农业作为出发点，采用多源异构的数

20、据构建了一定规模蜜蜂领域的知识图谱。并在图谱的基础上，通过命名实体识别、问句意图识别等模块实现了下游的智能问答任务，为农业信息化的落地提供了真实参考价值。由于下游的智能问答任务对语料库和知识图谱的规模和深度都有较高的要求，本研究并不能覆盖到所有的蜜蜂知识，仅支持 11类为问句形式，下一步本研究将扩充语料库和知识图谱的规模，试图完善系统。参考文献：1 刘峤,李杨,段宏,等.知识图谱构建技术综述 J.计算机研究与发展,2016,53(03):582-600.2 胡芳槐.基于多种数据源的中文知识图谱构建方法研究D.华东理工大学,2015.3 杨振,万为清.图数据库的研究和应用 J.电脑编程技巧与维护

21、,2020(12):91-93.4 张加俊.基于标记分布学习的碎片化农业知识导航系统研究 D.安徽农业大学,2019.5 张永亮.基于知识图谱的苹果病虫害智能问答系统研究D.西北农林科技大学,2022.6 董星彤,陈士宏,陈淑鑫.自然语言处理文本查重优化算法设计 J.科学技术与工程,2022,22(03):1091-1097.7 王郝日钦,王晓敏,缪祎晟,等.基于 BERT-Attention-DenseBiGRU 的农业问答社区问句相似度匹配 J.农业机械学报,2022,53(01):244-252.8 刘知远,孙茂松,林衍凯,等.知识表示学习研究进展 J.计算机研究与发展,2016,53(

22、02):247-261.9 李丽双,郭元凯.基于 CNN-BLSTM-CRF 模型的生物医学命名实体识别 J.中文信息学报,2018,32(01):116-122.10 郑泳智,吴惠粦,朱定局,等.基于荔枝和龙眼病虫害知识图谱的问答系统 J.计算机与数字工程,2021,49(12):2618-2622.11 吴赛赛.基于知识图谱的作物病虫害智能问答系统设计与实现 D.中国农业科学院,2021.12 吴丹,周作建.基于知识图谱的心血管疾病智能问答系统J.软件导刊,2022,21(03):160-164.【作者简介】曾攀（1989-），男，江西横峰人，硕士，助教，主要研究方向：计算机科学与技术。袁黎辉（1973-），男，江西南昌人，硕士，高级工程师，主要研究方向：计算机科学与技术。（收稿日期：2022-11-30 修回日期：2023-01-17）

展开阅读全文