1、引用本文格式赵赛,杨婉霞,王巧珍,等基于马铃薯病虫害知识图谱的问答系统 J农业工程,2023,13(8):29-37 DOI:10.19998/ki.2095-1795.2023.08.006 ZHAO Sai,YANG Wanxia,WANG Qiaozhen,et al Question answering system based on potato pests and diseases knowledgemapJAgricultural Engineering,2023,13(8):29-37基于马铃薯病虫害知识图谱的问答系统赵赛,杨婉霞,王巧珍,王梦瑶,熊磊(甘肃农业大学机电工程学院
2、,甘肃 兰州 730070)摘要:开展农业知识图谱的问答系统研究在整个智能农业领域中具有重要的意义。以马铃薯病虫害为例,设计了马铃薯病虫害知识图谱问答系统,通过 BIO、BMES 和 BIOES 3 种方式标注数据后设计了 BIiLSTM-CRF、Word2vec-BILSTM-CRF 和 Bert-BILSTM-CRF 3 种模型进行命名实体识别。试验结果表明,BEMS 标注方式效果最佳,Bert-BILSTM-CRF 模型在命名实体识别时性能最佳,其 F1值为 85.62%。结合 Neo4j 图数据库匹配相应 Cypher 语句实现问答交互,应用基于 Javascript语言的 VUE 前
3、端框架,搭建完整的问答系统页面。关键词:马铃薯;知识图谱;问答系统;病虫害;命名实体识别;Neo4j 图数据库中图分类号:S532文献标识码:A文章编号:2095-1795(2023)08-0029-09DOI:10.19998/ki.2095-1795.2023.08.006Question Answering System Based on Potato Pests and Diseases Knowledge MapZHAO Sai,YANG Wanxia,WANG Qiaozhen,WANG Mengyao,XIONG Lei(Mechanical and Electrical Eng
4、ineering College,Gansu Agricultural University,Lanzhou Gansu 730070,China)Abstract:Research on question answering system of agricultural knowledge map is of great significance in the field of intelligent agri-cultureA question answering system of potato pests and diseases knowledge map was designed,
5、taking potato pests and diseases as anexampleAfter labeling data by three models of BIO,BMES and BIOES,Bilstm-CRF,Word2vec Bilstm-CRF and Bert Bilstm-CRF,were designed for named entity recognitionExperimental results showed that BEMS annotation method was the best,Bert BiLSTMCRF model has the best p
6、erformance in named entity recognition,and its F1 value was 85.62%Question and answer interaction wasrealized by matching corresponding cypher statements with the Neo4j diagram database,and the VUE front-end framework based onjavascript language was applied to build a complete question and answer sy
7、stem pageKeywords:potato,knowledge map,question answering system,diseases and pests,named entity recognition,Neo4j diagramdatabase 0引言马铃薯淀粉含量较高,含有丰富的蛋白质和维生素,是我国重要的粮食作物之一1。科学种植马铃薯,保证其增产增收尤为重要。其中,马铃薯耕种环节的病虫害防治在马铃薯生长周期中更为重要,直接影响马铃薯的产量和质量。目前农业生产者面对种植、病虫害防治等一系列问题主要通过网络查询以获得相关的解决办法。但利用搜索引擎查询相关专业问题时,往往会得到大
8、量的与问题不相关的内容,还需要进行人工的筛选2。为此,本研究利用自然语言处理技术、神经网络和深度学习技术,通过构建马铃薯病虫害防治的专业领域知识图谱,以此图谱设计了灵活、便捷和专业的智能查询系统,为农业生产者提供更为相关、系统和多形式的查询方式,及时答疑解惑。知识图谱的提出源于谷歌优化其搜索引擎的目的,在储存实体和关系上有一定的优越性3。主要以三元组作为基础单元将实体关系属性相互链接,通过实体、实体属性及实体间的关系来刻画知识关联,构成了一种揭示实体之间关系的语义网络4。用图表示知识、储存知识,可以完成智能分析、智能查询和智能问答等一系列自然语言处理任务5。知识图谱不仅精 收稿日期:2022-
9、12-17修回日期:2023-03-09基金项目:甘肃省高等学校青年博士基金项目(2021QB-033)作者简介:赵赛,硕士生,主要从事知识图谱管理与存储研究E-mail:杨婉霞,通信作者,博士,教授,主要从事信息处理和自控技术研究E-mail:第 13 卷 第 8 期农业工程Vol.13No.82023 年 8 月AGRICULTURAL ENGINEERINGAug.2023确度高、直观性强,而且扩展性和可塑性强,广泛应用于军事、医学、经济和农业等领域,特别是智慧农业,结合领域知识图谱与问答系统的研究方向备受关注且已开展大量研究6。吴赛赛7对大规模数据进行清洗,并采用新型标注方式和实体关系
10、联合抽取有效缓解重叠关系抽取问题。徐帅博8使用 Bert-BILSTM-CRF 模型进行命名实体识别,以规则匹配的方式构成三元组关系,并构建了枸杞病虫害知识图谱。吴茜9利用 Protg工具对收集的农业数据进行本体构建,并实现知识图谱可视化。朱淑媛等10利用 TensorFlow 框架通过对 Word2vec 训练得到其对应的词向量,使获得的词向量空间中包含了实体和关系的语义信息,并通过与 Trans E 等 3 种模型进行试验对比证实 Word2vec 的词向量效果。陈亚东等11将知识图谱的构建过程划分 4 个层级,并从 8 类数据源中抽取知识,形成了苹果产业知识图谱。张云中等12和 LIU
11、S 等13将知识图谱的构建和问答数据库结合,设计了智能问答系统,实现了理论和应用的良好结合。知识图谱的构建及其在各领域的应用极为广泛,但农业领域的知识图谱构建及应用依然存在较多的疑难点尚未攻破14。如大量数据的高质量批处理,实体分类的精准度不够,数据标注较为单一,模型的稳定性和效率不高等问题。因此,本研究以马铃薯病害虫防治知识图谱构建和查询系统的建立为目标,针对目前农业领域知识图谱构建存在的上述问题和挑战,从数据标注方法、实体细粒度分类和模型优化构建方面开展试验和分析。在已有的 BIOES 标注基础上,结合试验数据的特点,添加 BEMS 标注方式和 BIO 标注方式作为对比,试验验证 3 种标
12、注方式对知识抽取精度的影响。通过对试验数据特征的深入分析,添加了新的实体类型,即加入“防治”实体及关系使数据结构更加完整。模型构建方面,设计了多种模型进行对比试验以获得更适合本研究数据性能的更优模型用于知识抽取。1整体结构基于马铃薯病虫害知识图谱的问答系统整体结构设计如图 1 所示,以自上而下的结构分为数据收集和处理、知识图谱构建及问答系统建立 3 部分组成。其中数据收集和处理包含对结构化、半结构化和非结构化 3 大类型数据的收集和预处理,分别处理不同类型的数据并对其合理清洗,以保证模型训练数据的高辨识性。知识图谱属于智能查询系统的知识库存储部分,主要包含模式层和实例层构建。模式层采用 Shc
13、ema 方式构建,也即为实体层。实例层的创建是利用清洗后 图 1整体框架Fig.1 Overall frame 30 农业工程信息与电气化 的数据,抽取出相应的实体及关系,以三元组的形式“实体关系实体”或“实体关系属性”保存到Neo4j 知识图库。Neo4j 是一种基于 Java 的开源图数据库,可将数据存储于灵活的网络结构中,并且具有高性能、高可靠性和高可扩展性等优势,既能更加直观体现实体与实体之间的关系,又提升检索效率15。问答系统首先对问题进行预处理,并对用户问题进行识别和分类;之后利用本研究的 Bert-BILSTM-CRF 模型进行命名实体识别,利用 Bert-textcnn 模型进
14、行意图识别,对用户的问题实现匹配;再通过 Eypher 语句查询Neo4j 知识图库中相应的实体关系三元组后将其答案反馈给用户16-18。问答系统展示层以 Vue 框架搭建前端展示平台,并接入语音识别和语音播报作为扩展,通过 Uniapp 软件使项目整体迁移到手机 App 移动端。整个系统以Javascript 和 Python 两种语言并行完成项目设计并应用语音、移动端和微信聊天模式等多个功能。2知识图谱构建知识图谱的构建分为模式层框架搭建、数据收集与处理、实例层搭建、命名实体识别及可视化呈现 5大部分。首先,分析马铃薯病虫害体系结构、关系和特征,构建模式层的本体框架;然后,标注预处理后的数
15、据,并设计和优化模型准确抽取数据中的实体、关系和属性,形成三元组;最后,结合 Neo4j 软件可视化三元组结构。2.1模式层定义模式层作为知识图谱的核心部分,对知识图谱的结构层次和规模起着决定性作用。通过对马铃薯病虫害机理和关联因素的深入分析,构建了马铃薯病虫害知识图谱模式层结构,如图 2 所示。主要包含马铃薯病虫害本体、发病部位、分布区域、病原、症状和防治方法 6 大实体。图 2模式层构建Fig.2 Pattern layer construction 2.2数据收集与处理本研究数据主要来源于国家农业科学数据共享中心、维基百科和中国作物种质信息网等,其中大部分是非结构化数据,对于多源及大量的
16、非结构化数据,通过设计爬虫工具获取较为准确的数据。然后对获得的原始数据进行清洗、去重之后保存为 Mongo DB 数据库。进一步利用 Yedda 标注工具对样本数据进行实体标注后用于知识抽取模型的训练。对标注后的数据整理后获得包括 6 种实体类型、8 种关系类型共计 8 971个实体样本的训练数据集,将该数据集以 622 比例划分为训练集、验证集、测试集,用于命名实体识别试验,训练数据集具体如表 1 所示。表 1数据集Tab.1 Data set实体类型关系类型属性类型分类数量分类数量分类数量疾病579危害1 427发病周期579防治方案1 153防治1 649防治药剂981症状1 472分布
17、463发病条件876病原2 452属于657传播途径1 028发病部位2 966别称1 042分布区域200总数8 971总数5 238总数3 464 2.3实例层构建实例层构建需要完成知识抽取、关系抽取和属性抽取 3 个阶段,依据不同的疾病和不同的类型,将实体分为疾病名称、发病症状、疾病病原、防治方法和疾病多发地区。关系分为分布区域、防治方法、发病症状、病原名称和发病部位。属性分为疾病别称、适应温度区间、适应 pH 值区间和传播途径。以此定义抽取知识以三元组“实体关系属性”存储于 Neo4j 知识图库。基于此知识库,问答系统对相应的实体进行查询并对其关系和属性进行相应匹配从而输出知识单元。实
18、体及关系的详细定义如表 2 和表 3 所示。表 2实体关系Tab.2 Entity relationship实体关系含义示例distribution分布has prevent防治has symptom危害diseas_is别称Location of diease 属于 2.4实体对齐实体对齐对于实体的准确抽取和知识图谱的质量起到非常关键的作用。其原因是在大量来源不同的数据中可能均包含同一实体,如果不用实体对齐进行信息融合,会发生在知识图谱中出现实体重复和歧义等现象。早期的实体对齐方法主要依赖于定义各种独立 赵赛等:基于马铃薯病虫害知识图谱的问答系统 31 于语言的特征或者机器翻译技术来实现跨语
19、言的连接。近年来,基于嵌入的实体对齐方法将知识图谱嵌入到低维向量空间中进行运算,显著提升了实体对齐效果19。本研究采用后者进行实体对齐,具体过程如图 3 所示。图 3知识融合Fig.3 Knowledge fusion 其理论依据是对词汇 x 和词汇 y 进行空间向量化,然后通过计算两个向量的夹角余弦值来评估其相似度,值域为 1,1。cos=ni=1(xiyi)ni=1(xi)2ni=1(yi)2=a b|a|b|(1)式中xi、yi词汇a向量b向量|a|向量 a 模长|b|向量 b 模长当两个向量方向相同时,余弦相似度为 1;当两个向量方向完全相反时,余弦相似度为1;当两个向量互相垂直时,余
20、弦相似度为 0。结果表明,夹角越小,代表词汇 x 与词汇 y 越相似。2.5命名实体识别命名实体识别(Named Entity Recognition,NER)旨在识别文本中具有特定意义或者指代性强的实体。命名实体识别是知识图谱构建的重要环节,其识别准确率的高低直接决定知识图谱的内涵,也是知识图谱构建的挑战问题之一。传统的命名实体识别方法通常有基于规则、字典的方法,以及无监督学习方法。但在试验中传统命名实体识别方法对于多文本、多实体结构等复杂语料有较大的局限性,具体体现有精准度不够、运行速度缓慢和误差较大等问题。采用基于特征的监督学习方法,在数据处理中相比于传统方法,此类方法准确率更高,适用于
21、中小型数据。目前,在实体命名识别中常用的经典模型是基于深度学习的 BILSTM+CRF 模型,该模型对文本中词义的表达有些欠缺。为此对其进行了改进,在此基础上加入 BERT 词嵌入层,通过 BERT 词嵌入层将输入文 本 转 化 为 具 有 丰 富 语 义 的 词 向 量,然 后 经过BILSTM 双向编码,可获得全面的上下文信息。但该层不能通过隐藏状态决策标签,最后进过设计 CRF 随机向量层思考标签之间的上下关系来获得全局的最佳标签。为了选择最优的词向量层,文本设计了 Word2vec-BILSTM-CRF 模型和 Bert-BILSTM-CRF 模型进行对比试验,以获得最优的实体命名识别
22、模型。2.5.1Word2vec-BILSTM-CRF 模型在数据集中,各个实体之间相互独立,很难看出向量间存在关系,传统 BILSTM-CRF 模型在面对此类数据集,会存在维度灾难和语义缺失等问题。因此采用 Word2vec 嵌入对稠密向量将相关向量进行关系链接,很好解决语义缺失等问题。因此,研究采用 Word2vec模型的 CBOW 算法实现语义表达。CBOW 分为输入层Input layer、隐藏层 Hidden layer、输出层 Output layer。设词向量空间为、行数为 n,词向量总空间的大小为|n,|表示整体词向量词语数量。以样本 a 为例,a=“马铃薯青枯病是由青枯假单胞
23、菌引起的、发生在马铃薯的病害”。序列化处理为(r1,r2,rm),m 是实体个数;取得 ri(1i(Z1,Z2,Zm)T,作 为 输 入BILSTM+CRF 模型进行训练,如图 4 所示。图 4Word2vec-BILSTM-CRF 模型Fig.4 Word2vec-BILSTM-CRF model 2.5.2Bert-BILSTM-CRF 模型Bert 是基于 Transformer 的深度双向预训练语言模型,Transformer 用于将输入语料库转换为特征向量,Transformer 层的核心是通过自注意力函数 Attention()表 3实体属性Tab.3 Entity attribu
24、tes实体属性含义示例Cycle疾病发病周期Insecticide疾病防治药剂Environment疾病发病条件Channel疾病传播途径 32 农业工程信息与电气化 计算词与词之间的关联度。Attention(Q,K,V)=sofrmax(QKTdK)V(2)式中Q、K、V输入序列的嵌入向量dK键的维度T矩阵的转置softmax归一化查询和键之间的相似度得分Attention()是一种将输入序列中的每个元素都视为查询(Query)、键(Keys)和值(Value)的方法。通过计算查询和键之间的相似度得到每个元素与所有其他元素的关系,然后将这些关系作为权重,对每个元素的值进行加权平均,从而得到
25、每个元素的表示。headi=Attention(QWQi,KWKi,VWVi)(3)MultiHead(Q,K,V)=Concat(head1,.headh)WO(4)式中headi第 i 个头的注意力WiQ查询的投影矩阵WiK键的投影矩阵WiV值的投影矩阵concat将不同头进行拼接Wo输出投影矩阵MultiHead多头自注意力通过引入多头机制,可以更好地捕捉输入序列中的不同语义信息,提高模型的表示能力。虽然 Word2vec 很好解决了维度灾难和语义缺失现象,但是仍无法解决一词多义的问题。而采用 Bert 词嵌入将试验样本中的句子序列经过模型中的 Attention层处理后单个实体的 Em
26、bedding 取值为整句 Embedding加权平均。例句:苹果一词分别在苹果树的苹果熟了和苹果手机发布会 10 时开始两个语句中加权平均值 Embedding 不同,因此可分辨一词多义。设计了 BERT-BILSTM-CRF 的模型用于实体、关系和属性抽取。试验模型中,Bert 输入为字符嵌入向量和位置嵌入向量的和,如输入句子为“严重枯萎”,在其首尾嵌入字符向量 CLE 和 SEP 后,以单个字符形式输入 Bert 提取语义特征,输出文本的字符级向量化表示(T1,T2,TN),将其送入 BILSTM-CRF 模型中进行实体识别,模型具体结构如图 5 所示。2.6试验设计与分析 2.6.1试
27、验测评标准试验采用自然语言处理领域最常用的准确率(Precision)、召回率(Recall)及 F1值(F1-Score)3项基本指标来评价模型20-21。P=TPTP+FP(5)R=TPTP+FN(6)F1=2PRP+R(7)式中P预测为正的样本是真正为正样本的概率R在样本中的正样本被预测正确概率F1结合准确率和召回率的加权和平均TP预测正样本FP预测负样本FN本身正样本预测为负样本 2.6.2标注方式探究及分析在知识图谱问答系统中命名实体识别试验非常关键,为了让模型更好识别实体,在进行命名实体识别试验中首先要对语料进行准确标注。为此,设计并探究了 BIO、BMES 和 BIOES 标注方
28、式对实体识别准确率的影响,以从中选出最佳的标注方式用于知识图谱构建的知识抽取。其对比试验模型设定为 Word2vec-BILSTM-CRF。模型的重要参数学习率设置为 0.05,Batch_size 为 16。在此,首先对 3 种标注方式进行详细举例说明。相应举例如图 6 所示。其中,BIO 标注方式中 B 代表实体开头、I 代表实体中间、O 代表其他非实体;BMES 标注方式 B 表示一个词的词首位值、M 表示一个词的中间位置、E 表示一个词的末尾位置、S 表示一个单独的字词;BIOES标注方式中 B 表示开始、I 表示内部、O 表示非实体、E 实体尾部、S 表示改词本身就是一个实体。相比之
29、下,在 BMES 和 BIOES 两种标注方式对单个实体有很好标注方式,这一点优于 BIO 标注方式。将 3 种 方 式 标 注 的 试 验 样 本 输 入 Word2vec-BILSTM-CRF 模型进行对比试验,采用上文中定义的准确率 P、召回率 R 及 F1值 3 项指标对试验结果进行综合评测,其值如表 4 所示。为了更直观地体现对 图 5Bert-BILSTM-CRF 模型Fig.5 Bert-BILSTM-CRF model 赵赛等:基于马铃薯病虫害知识图谱的问答系统 33 比试验结果,采用图形对比显示 F1值(图 7)。由表 4 和图 7 可知,采用模型 Word2vec-BILS
30、TM-CRF 识别实体,BEMS 标注方式下模型输出的 F1值最高,BIO 标注方式 F1值略有偏差,BIOES 标注方式的效果较为逊色,可能的原因是 BIOES 标注中实体边界比较模糊,负样本数量较多,对效果产生负面影响。2.6.3模型性能分析为探究本研究设计的 Bert-BILSTM-CRF 模型在命名实体识别方面的优越性,采用表 1 列举的试验数据,试验验证较优的 BEMS 标注方式训练模型实现实体识别,并且与 Word2vec-BILSTM-CRF、BILSTM-CRF 模型进行了对比试验,其结果如表 5 所示。为了更直观地表达 3 种模型的优越性,对 3 种模型的 F1值做出了对比值
31、,结果如图 8 所示。由表 5 和图 8 可知,在相同数据集下 Bert-BILSTM-CRF 模型相较于BILSTM-CRF、Word2vec-BILSTM-CRF两种模型在 F1值上分别提升了 18.23 和 8.61 个百分点,并在速度上优越于其他模型,在第一个 Epoch 训练中F1值已经达到 71.82%。进一步说明 Bert 对模型输入层 图 6语料标注方式对比Fig.6 Comparison of corpus annotation methods 表 4标注对比试验结果Tab.4 Label the results of comparative experiments单位:%标
32、注方式PRF1BIO78.2174.2375.62BEMS78.1777.6477.91BIOES71.3171.4871.24 表 5模型对比试验结果Tab.5 Results of model comparison experiment单位:%模型PRF1BILSTM-CRF71.8863.3267.33Word2vec-BILSTM-CRF74.1772.6477.91Bert-BILSTM-CRF81.6689.1185.62 图 7不同标注方式各实体的F1值Fig.7 F1 value of entities with different marking methods 图 8模型收
33、敛曲线F1-ScoreFig.8 Model convergence curve F1-Score 34 农业工程信息与电气化 进行了优化,提高了文本特征提取的准确率,解决了部分模型不宜学习长文本数据和一词多义的问题,而Bert 模型生成的字符级动态特征向量可以很好地解决这类问题,试验结果也证明了在相同的条件下 Bert-BILSTM-CRF 模型在命名实体识别方面更为效性。2.7知识储存及可视化采用 Neo4j 图数据库形式来储存数据,相比其他存储方式,图数据具有扩展性强、更加直观和稳定性强等优势。将试验中获得的三元组数据通过驱动工具Py2neo 导入 Neo4j,然后采用 Cypher 语
34、言编程实现图谱可视化,文本构建的马铃薯病虫害知识图谱可视化如图 9 所示。图 9马铃薯病虫害知识图谱Fig.9 Knowledge map of potato diseases and pests 3问答系统设计 3.1问答终端整体结构基于马铃薯病虫害知识图谱的智能问答系统是一种很有价值和实践指导的应用方式。为了能够将其更为便捷地使用,设计了在线和离线端分离两种模式的问答系统,结构如图 10 所示。图 10问答终端结构Fig.10 Q&A terminal structure 在线端以 Python 为基础语言对输入问题进行命名实体识别并在 Neo4j 知识图库检索最佳答案反馈给用户。离线端以
35、 Java 为基础语言,搭建相应数据库,利用Vue 前端框架搭建问答交互网页对问题采用自上往下方式进行数据库检索并反馈用户。3.2在线问答系统在线问答系统利用常规自然语言处理技术,包括问题预处理、问题识别分析、Neo4j 知识图库检索最佳答案和反馈用户 4 部分组成。3.2.1问题预处理问题预处理首先利用 Python 自带的 Jieba 分词对用户输入的问题进行分类,以增加系统的处理效率,使用户可以更加便捷、快速地实现查询。本系统将马铃薯病虫害问题划分闲聊、症状类问题、防治类问题、属性类问题、周期性问题和其他类问题 6 个类别。闲聊类问题如你好、再见、你叫什么名字等;症状类问题如马铃薯青枯病
36、的发病症状、马铃薯早疫病的叶子变化等;其他问题属于马铃薯病害虫领域的相关了解部分包括对于发病地区和易发病环境的问答,对用户有一定的指导意义,详细内容如表 6 所示。表 6问题分类Tab.6 Problem classification问题分类示例闲聊症状类问题防治类问题属性类问题周期性问题其他类问题 3.2.2问题识别分析问题识别分析是对以上划分的类别进一步详细处理,首先,采用 Bert+Text CNN 文本分类模型实现对用户意图的识别,其目的是判断用户的 Query 属于哪一类问题,其次,建立语义槽,对问题进行槽位填充。如问句:“马铃薯青枯病的发病原因”其中“马铃薯青枯病”和“发病原因”分
37、别作为疾病名称和疾病发病原因的语义槽,结合命名实体识别任务,进行槽位填充。采用 Bert+Text CNN 模型完成意图识别和文本分类任务,通过 Bert 模型对问题进行向量化处理后利用Text CNN 对多个不同的 Kernel size 提取句子中的关键信息,将不同的 Kernel size 的结果进行拼接实现Pooling(对其用中文解释)操作,以更好地获取文本的局部特征,最后对特征进行拼接完成用户的意图识别,其试验结果如表 7 所示,准确率达到 92%。3.2.3Neo4j 知识图库检索使用 Cypher 语句对 Neo4j 图数据库进行查询,对于用户的问题进行分类后,在 6 类不同的
38、用户意图类别下分别搭建相应的查询语句模板,如查询“马铃薯早疫病的防治方法”,系统首先进行命名识别得到实 表 7意图识别试验结果Tab.7 Results of intention recognition experiment单位:%模型PRF1Bert+Text CNN92.3689.4191.28 赵赛等:基于马铃薯病虫害知识图谱的问答系统 35 体“马铃薯早疫病”,之后通过意图识别进行问题分类到“疾病防治”类别进行检索,对应的 Cypher 查询语句为:Match(a)-:has prevent-(b)where b.name=“马铃薯早疫病”return a.name.3.2.4问答交互
39、利用前端技术搭建问答框架,即将 Python 中的Py2neo 与 Neo4j 图数据库连接,可以满足用户与系统实时交互。用户向系统提出问题,系统将接收信息输入 Neo4j 图数据库,再将反馈信息通过窗口化反馈,本系统构建的问答交互界面如图 11 所示。图 11问答交互页面Fig.11 Q&A interactive page 3.3离线问答系统离线系统基于 JavaScript 语言设计,并采用相关的轻便型框架进行搭建,常见的 Web 框架有 Flask、Vue框架等。Vue 框架的特点是轻量级、体积小,比较适合快速的开发,并且运行效率较高,生态丰富,学习成本低20。所以本系统构建采用 Vu
40、e 框架。总体分为内置数据库搭建、问答交互和页面可视化。3.3.1内置数据库搭建内置数据库搭建采用 MOCKJS 模拟后端接口,生成所需数据,可模拟对数据的增删改查。优势在于前后端分离,可随机生成大量的数据,用法便捷,数据类型丰富,可扩展数据类型。3.3.2问答交互问答交互采用 Element 框架构建,以搜索查找模式进行交互,并调用科大讯飞语音问答功能扩展本项目功能。本系统问答交互页面如图 12 所示。通过对数据库的双向 Context 绑定,对相应问题点击 详 情,即 可 跳 转 疾 病 详 情 页。查 询 功 能 基于Javascript 中的 Dom 属性设定,对于问句逐字拆分,如“马
41、铃薯虫害”,拆分为“马”“马铃”“马铃薯”“马铃薯虫”和“马铃薯虫害”5 部分,然后从前往后对内置数据库进行遍历,筛选出最佳对象并进行反馈。3.3.3可视化展示Echarts 模块是以 JavaScript 语言为基础的一款可视化图标库。利用该模块搭建初始化页面,设计图谱,通过与内置数据库产生联调,生成相应三元组视图,问答系统的可视化如图 13 所示。图 13echart 可视化图谱Fig.13 Echart visualization map 通过 Vue 框架中的内置 API 指令 V-mode 对点击事件和内置数据库进行双向绑定,通过点击图谱即可跳转详情页进行查看,使用更加便捷。4结束语
42、农业智能化是未来的发展趋势,而农业知识图谱是智能化的基础。以深度学习、Neo4j、命名实体识别和 Javascript 等技术为基础构建了马铃薯病虫害的知识图谱,基于此图谱设计实现了多模式的问答系统,系统不仅交互便捷,其知识量丰富且精准,知识间的语义关联更加紧密,而且该系统的可扩展性较强,可方便地应用于马铃薯生产领域。知识图谱问答系统的构建中,实现从大量非结构化数据中抽取实体、关系和属性等知识最为关键,其中模型的构建和数据标注方式是主要影响因素。为此,设计了 BIO、BIOES 和 BEMS 标注方式,并对其在同一模型上进行对比试验,结果证明了 BEMS 标注方式在本试验中效果最佳,可将 F1
43、值提升 2.29 个百分点。在前期研究的基础上设计了 Bert-BILSTM-CRF 的知识抽取模型,并与 BILSTM-CRF 和 Word2vec-BILSTM-CRF 模型进行试验对比。在同样的 BEMS 数据标注方式下,模型 Bert-BILSTM-CRF 的加权平均 F1值最高。说明本设计模型在利用 BERT 解决语义缺失和一词多 图 12离线问答交互Fig.12 Offline Q&A interaction 36 农业工程信息与电气化 义等问题后模型性能大大提高,能够准确地抽取非结构化数据中的知识,进一步提升问答系统中问句实体的识别率,实现精准问答。由于在马铃薯病害虫领域数据量有
44、限,模型在性能上还有提升空间,接下来将进一步优化数据集和模型输入层,以获得更好的试验效果。参考文献 张克艳,谢冬甘肃省马铃薯产业发展现状与前景展望J农村经济与科技技,2020,31(1):227,2381 陶永芹专业领域智能问答系统设计与实现J计算机应用与软件,2018,35(5):95-101TAO Yongqin Design and implementation of intelligent question an-swering system in professional fieldJ Computer Applications andSoftware,2018,35(5):95-1
45、012 XIAO G,CORMAN JOntology-mediated SPARQL query answer-ing over knowledge graphsJ Big Data Research,2020,23:100177DOI:10.1016/j.bdr.2020.1001773 刘峤,李杨,段宏,等知识图谱构建技术综述J计算机研究与发展,2016,53(3):582-600LIU Qiao,LI Yang,DUAN Hong,et alKnowledge graph construc-tion techniquesJ Journal of Computer Research an
46、d Development,2016,53(3):582-6004 孙亚茹,杨莹,王永剑基于知信图卷积神经网络的开放域知识图谱自动构建模型J计算机工程,2022,48(10):116-122SUN Yaru,YANG Ying,WANG YongjianKnowledge graph auto-matic construction model in open domain based on knowledge-informedgraph convolutional neural networkJComputer Engineering,2022,48(10):116-1225 申存,黄廷磊,梁
47、霄基于多粒度特征表示的知识图谱问答J计算机与现代化,2018(9):5-10SHEN Cun,HUANG Yanlei,LIANG XiaoKnowledge graph ques-tion answering based on multi-granularity feature representationJComputer and modernization,2018(9):5-106 吴赛赛基于知识图谱的作物病害虫智能问答系统D北京:中国农业科学院,2021WU SaisaiDesign and implementation of intelligent question and an-
48、swering system for crop diseases and pests based on knowledgegraphD Beijing:Chinese Academy of Agricultural Sciences,20217 徐帅博基于枸杞病虫害知识图谱的问答系统研究与实现D银川:宁夏大学,2020XU ShuaiboResearch and implementation of question answering sys-tem based on diseases and pests knowledge graph of lycium barbarumDYinchuan:
49、Ningxia University,20208 吴茜基于知识图谱的农业智能问答系统设计与实现D厦门:厦门大学,20199WU QianDesign and implementation of agricultural intelligent Q&Asystem based on knowledge graphDXiamen:Xiamen University,2019 朱淑媛,罗军基于本体的领域自动问答系统研究J计算机应用与软件,2019,36(8):98-105,154ZHU Shuyuan,LUO JunDomain automatic question answering sys-te
50、m based on ontologyJComputer Applications and Software,2019,36(8):98-105,15410 陈亚东,鲜国建,寇远涛,等我国苹果产业知识图谱构建研究J中国农业资源与区划,2017,38(11):40-45CHEN Yadong,XIAN Guojian,KOU Yuantao,et alStudy on con-struction of knowledge graph of apple industry in ChinaJ ChineseJournal of Agricultural Resources and Regional