基于知识图谱的中成药智能问答平台构建_郭紫琴.pdf

资源描述

1、第 31 卷第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号：1005-1228（2023）04-0052-06基于知识图谱的中成药智能问答平台构建郭紫琴，谭智福，王嘉俊，叶青（江西中医药大学计算机学院，江西南昌 330004）摘要：近年来，中成药的使用和生产规模不断增大，产生了越来越多的中成药数据，中成药的普及与发展是一关键性问题。本项目结合知识图谱和多标签文本分类与命名实体识别的自然语言处理、语音识别等智能问答技术搭建中成药智能问答平台。在用户文本提问或语音提问后，平台会根

2、据提问在海量中成药信息中迅速准确地查询相关中成药信息，并呈现相关中成药的知识图谱辅助用户理解。知识图谱可以将中成药很好的存储起来，智能问答可以帮助用户了解中成药，使用知识图谱结合智能问答技术对中成药普及与发展具有一定的意义。关键词：中成药；知识图谱；多标签文本分类；命名实体识别；语音识别；智能问答中图分类号：TP391文献标识码：AIntelligent Q&A of Proprietary Chinese Medicine Based on Knowledge GraphGUO Zi-qin,TAN Zhi-fu,WANG Jia-jun,YE Qing（College of Compute

3、r science,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,China）Abstract：In recent years,the use and production scale of proprietary Chinese medicines have been increasing,resulting in more and more data on proprietary Chinese medicines,and the popularization and development of pr

4、oprietary Chinese medicines is a key issue.This project combines knowledge graph,multi-label text classification and intelligent question-and-answer technology such as natural language processing and speech recognition for named entity recognition to build an intelligent Q&A platform for proprietary

5、 Chinese medicine.After the user asks the question in text or voice,the platform will quickly and accurately query the relevant proprietary Chinese medicine information in the massive proprietary Chinese medicine information according to the question,and present the knowledge map of the relevant pro

6、prietary Chinese medicine to assist the user to understand.The knowledge graph can store proprietary Chinese medicines very well,intelligent question and answer can help users understand proprietary Chinese medicines,and the use of knowledge graph combined with intelligent question and answer techno

7、logy has certain significance for the popularization and development of proprietary Chinese medicines.Key words:proprietary Chinese medicine;Knowledge Graph;multi-label text classification;named entity recognition;speech recognition;smart Q&A收稿日期：2022-08-15基金项目：江西省大学生创新创业训练计划项目（项目编号：S202210412060）；江

8、西中医药大学教育专项研究课题（人工智能）（项目编号：2021rgzn-4）。作者简介：郭紫琴（2000-），女，江西瑞金人，本科，计算机科学与技术专业；谭智福（2000-），男，江西上饶人，本科，计算机科学与技术专业；王嘉俊（2000-），男，本科，计算机科学与技术专业；（通信作者）叶青（1967-），女，教授、硕士生导师，主要从事于中医药信息学、计算机应用。改革开放尤其是党的十八大以来，中共中央国务院高度重视中医药事业的发展，2017 年中医药法正式实施，2019 年中共中央国务院关于促进中医药事业传承创新发展的意见对中药产业高质量发展提出了一系列具体要求。中药产业经历了一个高速发展时期，中

9、药工业营收一度超过 8000 亿元。在抗击新冠肺炎疫情的过程中，我国传统中医药发挥了重要作用，取得显著疗效1,进一步扩大中医药在全国和全球的影响，受到更广泛的认可与欢迎。尤其是中成药工业增长尤为明显，中成药工业增长强劲的 2020年一季度比 2019 年一季度的增速大幅高出了 35 个百分点，整个中成药工业形势大好2。并且在 2021 新年伊始，国务院办公厅印发关于加快中医药特色发展的若干政策措施，其指出中药产业必须努力抓住DOI:10.19414/ki.1005-1228.2023.04.008第 31 卷第 4 期53郭紫琴等，基于知识图谱的中成药智能问答平台构建新的发展机遇，全力促进各

10、项政策措施的落地实施，努力解决制约中药产业高质量发展的一些关键性问题，实现产业从快速扩张向高质量发展转型，为服务中医药事业快速发展、建设健康中国发挥了更好的作用3。在国家政策鼓励、市场需求、经济带动等因素多方面影响下，中医药行业将继续有着较好的政策环境，中医药文化基础也将不断加深夯实。其中中成药以其便捷、毒性小、疗效好等特点已逐渐成为中医药治疗使用最普遍的手段，但中成药数据种类繁多、关系复杂，故挖掘在中成药新药研发、生产流通、临床试验等过程中产生的大量非结构化数据的潜在价值已迫在眉睫，传统的关系型数据模型难以表现出数据之间复杂的关系，因此，使用知识图谱存储模型，结合数据可视化技术挖掘、展示中

11、成药大数据已势在必行。为了在海量中成药相关信息中找到准确治疗疾病的相关中成药的信息，并及时回答用户的问题，构建出中成药知识图谱数据库，筛选出治疗疾病的有效中成药，并搭建基于知识图谱的智能问答系统有着重大意义。1研究现状近年来国内有不少专家学者对中医药领域的智能问答系统进行了研究,主要都集中于构建中医药某子领域本体，并基于本体构建智能问答系统。如顾琳4等研发了基于本体的亚健康中医辅助诊断系统，该系统采用半自动方式获取知识，构建中医亚健康本体,在领域本体驱动下进行基于模糊推理的方法对亚健康症状中医辅助诊断知识进行推理；温思琦等针对中医治疗冠心病构建自动问答系统，采用文献资料构建中医冠心病本体，然后

12、设计了针对中医冠心病受限领域的自动问答系统的实现方案。在社区类问答系统方面，国内出现了一些比较有名的医学信息服务类网站如寻医问药网,快速问医生等5。这类网站虽然允许用户通过各种形式提问问题，但是返回给用户的答案较多，对于非专业人员，其获取准确答案较为困难。国外在医学领域智能问答系统研究中已有了初步发展,国外的医学智能问答系统，如 Med QA、AskHERMES、MEANS、AskCuebee 等，且这些系统主要针对医学专业人员，如 AskCuebee 是一款用于畜生虫学家获取与寄生虫有关知识的系统，也有部分问答系统是针对大众群体的，如 mcuire Me 可通过问题答案返回给用户想要的信息，

13、但关于中成药方面的国外智能问答系统暂未查询到。2系统设计本项目采用自底向上的开发设计方式，首先对数据库进行数据处理并设计用于模型训练的数据集，其次搭建中成药知识图谱，再设计自然语言处理模型，并利用得到的数据集对模型进行训练测试，同时进行语音识别设计，然后根据自然语言处理结果和知识图谱来生成答句，最后进行界面设计，把所有功能模块组合设计在同一界面平台上。基于知识图谱的中成药智能问答平台流程图如图 1 所示。图 1中成药智能问答平台流程图2.1数据处理与搭建知识图谱对于已有的数据库进行数据处理，清洗掉不符合要求的数据以及对数据进行规范化处理，例如对于来电脑与信息技术 2023 年 8 月54源不一

14、样而其它属性都一样的中成药，选择其中一个并把另一条记录从数据库中删除；对于组成属性不仅含有组成还含有处方、制作方法等的记录进行数据规范化的方法采用的是留下组成属性，其余不留以防影响后续智能问答结果；对于一些只含中成药药名但无实质性属性的记录，可利用爬虫技术爬取更多数据补全数据属性，而本项目采用的是删除此类记录来缩短模型训练时间。本项目主要使用 Excel 的查找替换功能结合正则表达式进行数据处理。对经过数据处理的数据库进行信息提取，即从中提取实体、关系和属性，然后创建节点和关系，使用python 读取中成药数据库中的数据并结合 Ctype 语言来连接 Neo4j 运行生成知识图谱，知识图谱的实

15、体与属性关系、舒肝和胃丸知识图谱如图 2、图 3 所示。图 2知识图谱的实体与属性关系图 3舒肝和胃丸知识图谱2.2文本问答文本问答是对用户提出的问题进行自然语言处理6，分析出知识图谱并查询需要的关键字，然后使用这些关键字查询知识图谱中的数据，并返回结果，最后将得到的结果组织为答句。文本问答流程图如图4 所示，其中自然语言处理主要是设计多标签文本分类和命名实体识别模型，再用已设计好的数据集进行模型训练，模型验证，反复修改模型，这也是文本问答的核心。图 4文本问答流程图2.2.1 数据集设计深度学习能够通过数据挖掘进行海量数据处理，自动学习数据特征，尤其适用于包含少量未标识数据的大数据集；采用

16、层次网络结构进行逐层特征变换，将样本的特征表示变换到一个新的特征空间，从而使分类或预测更加容易。数据集用于自动学习特征，便于预测，故数据集的好坏对一个模型起到至关重要的作用。本项目数据集主要是根据问卷调查结果所设计的。首先对一定范围内的对中成药了解不太多的人群进访问调查研究大概会问哪些关于中成药的问题，然后进行问句分析以此来了解普通用户大概会提出什么样的问题以及大体提问方式，最后进行统计分析。根据调查结果所知一共有 110 种大体提问方式，其中与本项目关联不太大或是数据库不包含该提问中涉及的信息的有13种，此外大部分提问涉及用法用量、主治、性状、不良反应等属性，提问中涉及的属性饼状图如图 5

17、所示。图 5提问中涉及的属性饼状图2.2.2 多标签文本分类多标签文本分类7是指识别一句提问中所包含的标签，即识别提问包含了几个问题、都问了什么问题以及提问中涉及中成药的哪些属性，如“六味地黄丸可以治疗什么疾病以及一次服用多少？”这句话包第 31 卷第 4 期55郭紫琴等，基于知识图谱的中成药智能问答平台构建含了两个问题：第一个问题是“六味地黄丸能治疗什么疾病”，第二个问题是“六味地黄丸一次服用多少”，涉及了主治与用法用量这两个属性。这种提问在生活中并不少见，而这也就意味着程序既要识别出标签“主治”也要识别标签“用法用量”，不然无法对该问题查询相关数据也无法得到正确答案。识别多标签的方法有两

18、种，以上述提问为例，第一种方法是设计两个二分类模型，一个模型识别是否询问主治，另一个询问是否询问用法用量；第二种方法则是多标签文本分类输入，判断其对每一个标签的拟合度后得到结果的一个数组。本项目采用的便是多标签文本分类法，首先需要预训练 Bert，如图 6 所示。预训练是 Bert 训练的第一阶段，亦可下载预训练模型跳过此步，其以无监督方式完成，主要包括掩码语言建模（MLM）和下一句预测（NSP）。图 6Bert 预训练在 BERT 模型中需要先将输入的语句使用tokenizer（分词器）为其加入各种令牌，BERT 每个序列的最大长度为 512。对于输入的比最大长度短

19、的序列，我们需要添加 PAD 用于占位，告诉模型序列不足 512 并且 PAD 之间就是输入的序列，同时在序列的头部加入 CLS 表示序列的开始,同时在末尾加入 SEP 用于分割表示一个序列的结束8。Bert 输入如图 7 所示。图 7Bert 输入因为 BERT 模型是一个双向模型，而双向调节将允许每个“单词”在多层上下文中间接“看到自己”，所以 BERT 采用了“掩蔽”技术（MASKING）添加 mask。通过 MASK 令牌替换序列中一定数量的令牌，然后尝试预测被屏蔽的标记。例如:“六味地黄丸能组成什么？”可能会变成“PADCLS 六味地黄丸 MASK 能组成什么？SEPPAD”，再判断

20、句子之间是否有关。预训练过后进行文本分类微调，一旦我们自己预训练了我们的模型或者我们加载了已经预训练的模型，我们就可以开始文本分类的微调。BERT 微调方法如图 8 所示。图 8BERT 微调方法由于使用的标签相对较多，数据集设计存在缺陷，导致训练过程并不顺利，再训练到 20-30 次之间时或出现过拟合现象，即模型在训练集上表现优异，但在测试集上表现一般甚至无法正确预测测试集数据的现象。对于这种情况我们选择加入 dropout（按照一定的概率将其暂时从网络中随机丢弃神经网络单元），通过此方法可以有效的防止过拟合提升效果。最后使用大型训练数据集进行集中的训练，最后再将模型保存为自定义的预训练模型

21、，通过程序进行读取即可完成一个可用于后端问答的多标签文本分类模型。2.2.3 命名实体识别本项目答句是通过查询知识图谱，根据查询结果来生成的，而查询知识图谱需要确定的实体和关系，前面已经通过多标签文本分类得到了关系，故还需要一个命名实体识别模型来判断提问中具体的询问的是什么，如提问“红花油有什么作用”通过多标签分类可以知道用户询问的是主治属性，但无法得知询问的是什么中成药，即不知道这句提问中的主语（所谓的实体）是什么。命名实体识别首先需要将句子转化为计算机可理解的形式即利用多标签文本分类的“tokenizer”机制对“句子”进行 Embedding 然后才可以进入下一步。在进行模型建设之前还需

22、要预先定义实体的标签（B标签名代表标签的开始，I标签名代表在标签内，O 代表在标签外）。这里使用了 BiLSTM 910(Bi-directional Long Short-Term Memory 双向长短时记忆循环神经网络）和 CRF（conditional random fields 条电脑与信息技术 2023 年 8 月56件随机场）。BiLSTM 是一个前向 LSTM 和一个后向LSTM 两个 SLTM 一起构成结果。假设输入有四个数据(x1,x2,x3,x4)那么大体结构应该如图 9。图 9BiLSTM 模型LSTM 是一种特殊的 RNN（循环神经网络），主要是为了解决长序列训练过程

23、中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的 RNN，LSTM 能够在更长的序列中有更好的表现，且 LSTM 有两个状态 ct 和 ht 以及四个神经网络层，而普通的 RNN 只有一个传递状态 ht 和一个 tanh，如图 10。图 10LSTM 和一般 RNN 的区别但是这也会导致一些问题，假如我们提问有两类实体，一类为药品名称（drug），一类为药品组成的药材的名称(herbs)假设现在又一句话为“三七伤药片的组成是什么”很明显它问的是一个名为“三七伤药片”的药而不是“三七”这个草药。由于他们头部的两个词相同那么就有可能会导致头部的“三七”被识别为草药的问题。这时得到的输出结果如图

24、 11 所示为（B-herbs，I-herbs，I-drug，I-drug，I-drug，O，O，O，O，O，O），然而我们需要得到的是（B-drug，I-drug，I-drug，I-drug，I-drug，O，O，O，O，O，O）。为了解决上述问题，我们可采用 CRF11（conditional random fields 条件随机场）来核验数据，使其组织的更合理。CRF 是给定一组输入序列条件下另一组输出序列的条件概率分布模型，在自然语言处理中得到了广泛应用。它擅长考虑相邻数据的标记信息。通过它即可对数据进行整理使得输出结果进行调整使得结果更加合理。最后对模型进行训练

25、保存即可，得到一份可用于后端问答的 BiLTSM-CRF 模型。2.3语音问答语音输入方式相对文字方式来说更加的便利，本项目采用的 JavaScript 的方式通过浏览器调用设备的录制功能将用户的提问进行录音，再利用百度语音的语音识别技术，将语音转化成文字，再把文字连接到文本问答上，就可以完成初步的语音问答，如图 12所示。再对语音输入设置提醒，用户可以说完结束语音也可以取消语音，语音识别结果展示在文本输入框内，方便用户修改语音识别结果，防止语音识别的不准，便于用户使用。图 12语音识别流程图3结束语本项目专注于中成药方面的智能问答，所选的中成药属性都是大众及医学生较为关注的属性，且界面操作简

26、洁。本项目不但使用关联关系清晰且容量大的知识图谱，在检索相关中成药信息时的速度更快12，还使用了较先进的智能问答技术大幅提升智能问答的准确度和速度，提升了问答效率。项目也将不断维护中成药数据库并继续完善，帮助用户迅速准确地找到中成药相关问题的答案，满足用户多样的大健康服务需求，同时为中成药的普及与发展贡献一份力。参考文献：1 钟俊,张丽,黄艳彬.后疫情时代下中医药文化国际传播的影响力评价及提升对策 J.南京中医药大学学报(社会图 11异常的结果第 31 卷第 4 期57郭紫琴等，基于知识图谱的中成药智能问答平台构建科学版),2022,(03):171-177.2 前瞻产业研究院.2020

27、年中国中成药行业发展现状和市场前景分析疫情加速中成药市场需求 EB/OL.https:/ 国家中医药管理局一图读懂|关于加快中医药特色发展的若干政策措施 EB/OL.https:/- 顾琳基于领域本体的亚健康中医辅助诊断系统的研究及应用 D昆明:云南师范大学，2011.5 贾李蓉,刘丽红,刘静,等.基于中医药学语言系统的知识问答系统的设计与构建 J.中华医学图书情报杂志,2019,28(05):11-14.6 Qu D D,Yang T,Hu K F.Application of NLP in automatic extraction of symptom information fr

28、om TCM medical records J.Software guide,2021,20(02):44-48 屈丹丹,杨涛,胡孔法.NLP 在中医医案症状信息自动化抽取中的应用研究 J.软件导刊,2021,20(02):44-48.7 颜永超.基于标签信息提取的多标签文本分类研究 D.华东师范大学,2022.8 Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You NeedJ.arXiv,2017.9 羊艳玲,李燕,钟昕妤,等.基于 BiLSTM-CRF 的中医医案命名实体识别 J.中医药信息,2021,38(11):15-21.

29、10 杜琳,曹东,林树元,等.基于 BERT 与 Bi-LSTM 融合注意力机制的中医病历文本的提取与自动分类 J.计算机科学,2020,47(S2):416-420.11 Lafferty,J.,McCallum,A.,Pereira,F.Conditional random fields:Probabilistic models for segmenting and labeling sequence dataC.Proc.18th International Conf.on Machine Learning.Morgan Kaufmann:282289.2001 2016-08-17.1

30、2 魏晓,王晓鑫,陈永琪,等.基于自然语言处理的材料领域知识图谱构建方法 J.上海大学学报(自然科学版),2022,28(03):386-398.输出电压非常小，近似为零。当输入电压为-2V 时，即 x2=-2 时，电路如图 10 所示，输出电压也非常小，近似为零。当输入电压为 1V 和-2V 时，输出电压近似为零，表明输入值是该一元二次方程的根。仿真结果表明，设计的电路能够求解该一元二次方程。图 9 一元二次方程的求解（根为 1）图 10一元二次方程的求解（根为-2）5结束语本文采用 Multisim 软件对模拟乘法器组成的电路进行仿真。在仿真实例的设置上，由浅入深，而且和集成运算放大器组成

31、的运算电路相结合，设计综合仿真实例。本文通过模拟乘法器进行乘法运算、除法运算、平方根运算和一元二次方程的求解，并对仿真结果进行分析。在理论讲解过程中，通过电路仿真，非常形象和直观，有助于学生的理论理解，提高对课程的学习兴趣。参考文献：1 李晶皎,王文辉.电路与电子学（第 5 版）M.北京:电子工业出版社,2018.2 计文奎,胡海煦,李菲,等.具有隐藏吸引子的单涡卷混沌系统与电路实验 J.阜阳师范大学学报（自然科学版）,2021,38（04）:1-9.3 李姣军.AD633 模拟相乘功能设计与实现 J.实验技术与管理,2015,32（03）:47-49+67.4 任君玉.基于 Multisim 的模拟电子技术实验教学改革 J.实验科学与技术,2022,20（03）:57-63.（上接第 40 页）

展开阅读全文