收藏 分销(赏)

可区分单双相情感障碍症的知识图谱构建方法研究.pdf

上传人:自信****多点 文档编号:3128495 上传时间:2024-06-19 格式:PDF 页数:5 大小:3.40MB
下载 相关 举报
可区分单双相情感障碍症的知识图谱构建方法研究.pdf_第1页
第1页 / 共5页
可区分单双相情感障碍症的知识图谱构建方法研究.pdf_第2页
第2页 / 共5页
可区分单双相情感障碍症的知识图谱构建方法研究.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年9 月计算机应用文摘第39 卷第1 9 期可区分单双相情感障碍症的知识图谱构建方法研究汪洋1 2,杨伟宏3(1.泸州职业技术学院,四川州6 46 0 0 0;2.数据智能分析与处理州市重点实验室,四川泸州6 46 0 0 0;3.哈尔滨工业大学,哈尔滨1 50 0 0 6)摘要:文章提出了一种可区分单双相情感障碍症的知识图谱构建方法,通过多源异构的数据源保证了数据的全面性,采用梯度下降法和深度学习的卷积神级网络并结合最大熵马尔可夫模型实现知识抽取,为提高三元组极性识别结果的准确度和有效性,设计了基于可信度阈值的自适应加权估计知识融合算法。利用Neo4j生成的可区分单双相情感障碍症的知

2、识图谱内容精细、数据多源、融合完善,可以用来支撑情感障碍症患者及家属实现自我诊断和监测,并辅助临床医生做决策。关键词:知识图谱;情感障碍症;CNN;知识融合算法中图法分类号:TP391Research on construction of Knowledge Graph that candistinguish unipolar and bipolar affective disorder(1.Luzhou Vocational and Technical College,Luzhou,Sichuan 6460o0,China;2.Luzhou Key Laboratory of Data In

3、telligent Analysis and Processing,Luzhou,Sichuan 646000,China;3.Harbin Institute of Technology,Harbin 150006,China)Abstract:This paper proposes a Knowledge Graph construction method that can distinguishmonobipolar disorder,which ensures the comprehensiveness of data through multi-source andheterogen

4、eous data sources.Knowledge extraction is realized by layer descent method and deeplearning convolutional god-level network combined with maximum entropy Markov model.In orderto improve the accuracy and effectiveness of triplet polarity recognition results,an adaptive weightedestimation knowledge fu

5、sion algorithm based on credibility thresholds is designed.The KnowledgeGraph generated by Neo4j that can distinguish monobipolar disorder has fine content,multi-sourcedata,and perfect fusion,which can be used to support patients with affective disorder and theirfamilies to realize self-diagnosis an

6、d monitoring,and assist clinicians in making decisions.Key words:Knowledge Graph,affective disorders,CNN,knowledge fusion algorithm1研究背景情感障碍症(抑郁症)1 已成为仅次于癌症的世界第二大健康“杀手”,针对情感障碍症的普适性教育显得尤为关键。情感障碍症主要分为单相情感障碍症(单相抑郁症)和双向情感障碍症,两者临床表现症状相似,极易混淆,但两者治疗手段和用药方式差别很大。2 0 1 2 年,谷歌公司首次提出了知识图谱(K n o w l e d g e G r

7、a p h,K G)2 的概念。此后知识图谱日益成为大数据领域研究的热门话题,国内外陆续出现文献标识码:AWANG Yangl.2,YANG Weihongl了众多面向各个领域的知识图谱,其中医疗卫生领域的知识图谱也得到了快速的发展和应用。北京大学计算语言研究所和郑州大学自然语言处理实验室基于大规模医疗文本数据,利用自然语言处理和文本挖掘技术研发的中文医学知识图谱CMeKG2.03涵盖超过1 万种疾病、近2 万种药物、1 万余个症状、30 0 0 种诊疗手段等信息,在我国健康管理、疾病风险预测、辅助诊疗、病历结构化等智慧医疗领域发挥了巨大作用。但CMe KG2.0针对情感障碍症生成的图谱较为简

8、略和粗糙,尤其是对单相抑郁症和基金项目:泸州市科技计划项目(2 0 2 1-JYJ-96)40双向情感障碍这两种类型未做区分。中国中医科学院中医药信息研究所牵头完成的中医药知识图谱TCMKB4目前实现了中医药知识自动问答以及辅助决策等应用。但医学界针对情感障碍症治疗的普遍共识表明目前尚无有效中药能够治疗此类疾病。中国医科大学赵雪娇利用自然语言处理技术对妇产科教材中的医学知识进行抽取和表示,构建了妇产科知识图谱5,其存在的主要问题是构建的知识医疗知识图谱的数据源单一,说服力较弱。荷兰阿姆斯特丹自由大学和首都医科大学联合制作的抑郁症知识图谱6 只是简单地对单相抑郁症做了科普性介绍,并未实现单相抑郁

9、症和双向情感障碍这两种类型的鉴别。2情感障碍症知识图谱的构建思路根据现有研究现状发现,国内外利用自然语言处理和数据挖掘技术构建知识图谱已日趋成熟,可以提供借鉴意义。但是,国内已构建的中文医学知识图谱有关单双相情感障碍症的内容较为粗糙,不足以支撑患者自我诊断和辅助医生做决策。国内构建的其他小科门类疾病知识图谱存在数据源单一、说服力不高的问题。国内外尚未有人成功构建可区分单双相情感障碍症的精细知识图谱。因此,在前人的基础上研究构建可区分单双相情感障碍症的知识图谱具有较强的现实意义。本文构建基于多源数据融合的可区分单双相情感障碍症的知识图谱的思路如图1 所示。获取多源异构的情感障碍症信息,搭建情感障

10、碍症基础语料库通过抽取基础语料库中的实体单元和实体关系构建初始三元组集整合初始三元组集获得目标三元组集识别目标三元组集中关系三元组的极性,并根据极性计算关系三元组的可信度根据关系三元组的可信度,动态更新目标三元组集极性和情感障碍症数据库利用动态更新的情感障碍症数据库构建可区分单双相情感障碍症的知识图谱图1 可区分单双相情感障碍症的知识图谱构建思路3情情感障碍症基础语料库的构建获取的多源异构情感障碍症信息包括单相情感计算机应用文摘障碍症信息和双相情感障碍症信息,利用获取到的情感障碍症信息搭建基础语料库,具体步骤如下:(1)分别从医学权威书籍、医学科研论文、医院电子病历和互联网数据资源中获取结构化

11、、半结构化以及非结构化的单相情感障碍症信息和双相情感障碍症信息;(2)对获取到的单相情感障碍症信息和双相情感障碍症信息进行数据清洗和格式处理;(3)利用数据清洗和格式处理后的单相情感障碍症信息和双相情感障碍症信息搭建基础语料库。在实施过程中,医学权威书籍选取医学院使用的教材和医学出版社出版的医学书籍。医学科研论文通过知网、维普和万方等网站下载获得。医院电子病历通过对医院的就诊数据进行脱敏处理获得7 。脱敏处理表示对就诊数据进行变形处理,清除就诊数据中的个人隐私信息,其目的是保护隐私数据等信息的安全。互联网数据资源利用网络爬虫爬取,网络爬虫具体选择为聚焦网络爬虫。利用聚焦网络爬虫选择性地爬取预先

12、定义好的并与情感障碍症主题相关的医学或者科普类网,极大地节省了硬件和网络资源,同时更新快,可以很好地满足医学领域的信息需求。通过多种途径获得结构化、半结构化以及非结构化的单相情感障碍症信息数据和双相情感障碍症信息数据,保证了数据来源的丰富性和全面性8 。数据清洗将单相情感障碍症信息和双相情感障碍症信息的数据资源进行筛选,剔除错误的数据资源。格式处理表示将单相情感障碍症信息和双相情感障碍症信息的数据资源格式进行统一的格式化。利用数据清洗和格式处理将获取到的多源异构的情感障碍症信息转换成统一格式,并利用格式统一的多源异构的情感障碍症信息构建基础语料库,以便后续数据处理,提高后续数据处理的效率。4三

13、元组集构建4.1构建初始三元组集通过抽取情感障碍症基础语料库中的实体单元和实体关系构建初始三元组集,具体步骤如下:(1)基于情感障碍症基础语料库,通过梯度下降法和卷积神经网络训练最大熵马尔可夫模型;(2)利用最大马尔可夫模型9 抽取基础语料库中的实体单元;(3)基于上述最大马尔可夫模型,利用卷积神经网络1 0 在基础语料库中抽取实体关系;(4)抽取实体单元中的属性特征,并利用属性特征和实体单元构建二元属性列表;(5)通过二元属性列表匹配实体单元,获取属性三元组集;(6)利用实体单元和实体关系搭建关系三元组集;(7)汇总属性三元组集和关系三元组集,并对属性三元组集和关系三元组集进行归一化处理,获

14、2023年第1 9 期2023年第1 9 期取初始三元组集。最大马尔可夫模型是在知识图谱构建中实体单元抽取部分常用的模型,但是仅利用最大熵马尔可夫模型对基础语料库中的实体单元进行抽取,抽取过程耗时长、代价高、可拓展性差。因此,采用梯度下降法和深度学习的卷积神级网络并结合最大熵马尔可夫模型实现实体单元抽取。其中,卷积神经网络包括两个隐藏的卷积层、最大池化层和全连接层。卷积层用于提取基础语料库中的特征,最大池化层用于保留特征中的主要特征,从而达到降维的目的。全连接层用于对主要特征进行分类。利用梯度下降法和卷积神经网络继续训练的最大熵马尔可夫模型抽取基础语料库中的实体单元,极大程度地降低了实体单元抽

15、取过程中的损失。通过增加从基础语料库中抽取的特征的多样性,提升了原有最大熵马尔可夫模型的泛化能力。实体单元包括情感障碍症类型、治理药物名称、临床症状名称等实体名词。属性特征包括治疗双向情感障碍药物的“注意事项”“不良反应”“禁忌”等表征属性词汇。实体关系包括实体名词间动作、作用等关系词汇等,如“治疗”“副作用”“用于”。属性特征的形式可以具体选择为L=L,,L;。其中,L;表示属性列表中的某一属性特征,并利用该属性特征和实体单元构建二元属性列表,即实体单元随机选择和任一属性特征构成二元属性组,汇总二元属性组可获得二元属性列表。二元属性列表中的二元属性组形式为。通过二元属性列表再次匹配实体单元,

16、获取属性三元组集,属性三元组集中属性三元组的形式为。利用实体单元和实体关系搭建的关系三元组集中关系三元组集的形式为。治疗双向情感障碍药物的注意事项、不良反应和禁忌等经过实体单元和属性特征的抽取与匹配,可以获得对应的二元属性列表,该二元属性列表中包含如下二元属性组:和。再通过二元属性列表匹配实体单元获取的属性三元组集,包括 和。汇总属性三元组集和关系三元组集,并对属性三元组集和关系三元组集进行归一化处理,之后获取的初始三元组集包括 和。其中,来自属性三元组集,来自关系三元组集。计算机应用文摘4.2家获得目标三元组集整合初始三元组集以获得目标三元组集,步骤如下:(1)通过实体对齐整合初始三元组中的

17、实体单元,消除初始三元组中的实体命名指代冲突;(2)通过属性对齐整合初始三元组中的属性特征,消除初始三元组中的属性特征指代冲突。通过对初始三元组集中三元组的实体单元和属性特征进行对齐操作,消除了包括但不限于实体命名指代冲突、属性命名指代冲突等语言表述问题。其中,实体命名指代冲突具体可表现为治理单相抑郁症的药物“盐酸帕罗西汀片”有其他名称,例如乐特、乐友、舒坦罗和Paroxetine等。通过对齐操作消除初始三元组集中的错误数据、重复数据、余数据、歧义数据和关联性冲突数据,在保证目标三元组集中指代准确性的同时,也减少了后续在基于目标三元组集的运算中产生的噪声。5三元组的极性识别5.1三元组的可信度

18、计算为识别目标三元组集中关系三元组的极性,需要计算关系三元组的可信度,具体步骤如下:(1)追溯关系三元组的数据来源,并根据数据来源设定关系三元组的可信度权值。(2)根据实体单元对关系三元组分类,获取多组关系三元组子集。其中,任一关系三元组子集中所有关系三元组的实体单元指代的内容相同。(3)通过关系三元组中的实体关系将关系三元组子集中的元素划分为正向关系三元组和负向关系三元组。(4)利用正向关系三元组的数量、负向关系三元组的数量和关系三元组的可信度权值,构建关系三元组的可信度函数。可信度函数满足式(1)。R=ZN,;A?-ZM,B,BI其中,Q表示在目标三元组集中关系三元组的总数量,q表示第q个

19、关系三元组,R表示关系三元组的总数量为Q的目标三元组集中第9 个关系三元组的可信度,i=1,2,N,N表示第q个关系三元组所在的关系三元组子集中正向关系三元组的数量。A!表示第q个关系三元组所在的关系三元组子集中第i个正向关系三元组,;E(1,2),;表示A的可信度权值,t=1,2,M,M表示第个关系三元组所在的关系三元组子集中负向关系三元组的数量。B表示第q个关系三元组所在的关系三元组子集中第t个负向关系三元组,=(1,2),,表示BI的可信度权值。根据可信度函数获取关系三元组函数的可信度。通过构建的可信度函数获取了目标三元组集中任一关系三元组的可信度,为后续利用可信度剔除错误数据提供41(

20、1)42了数据基础。假设一个关系三元组有2个数据来源,其中一个数据来源来自医学论文,另一个数据来源来自互联网爬取数据。因为医学论文中的信息一般经过权威审核论证后才会发表出来,所以其信息的真实性普遍要高于网络互联网获取到的信息,可设置来自医学论文数据来源的可信度权值为1.5,设置互联网数据来源的可信度权值为1.2。5.2动态更新目标三元组集极性根据关系三元组的可信度,动态更新目标三元组集极性,步骤如下:(1)追溯关系三元组的数据来源,并根据数据来源设定关系三元组的可信度值;(2)利用可信度结合可信度阈值,获取不可信关系三元组;(3)剔除目标三元组集中不可信关系三元组,动态更新目标三元组集极性。利

21、用可信度结合可信度值,获取不可信关系三元组,步骤如下:(1)将可信度大于等于可信度值的关系三元组标记为可信关系三元组;(2)将可信度小于可信度阈值的关系三元组标记为不可信关系三元组。每个关系三元组 都需要判断可信度的正确性,并利用可信度进行筛选,将正确的可信关系三元组进行图谱构建,以保证知识图谱的准确性。在可信度函数R=,;A-,BI的基础上,本文设计了与关系三元组的数据来源有关的自适应加权可信度阈值估计方法,即针对不同的关系三元组,可通过可信度阈值的函数获得对应的可信度阈值。具体的可信度阈值的函数如式(2)。N(,-max+-min 2(N+M)M(-max+,-min)P一其中,p,表示第

22、个关系三元组可信度阈值,。mx表示第q个关系三元组所在的关系三元组子集中正向关系三元组的最大可信度权值,-min表示第q个关系三元组所在的关系三元组子集中负向关系三元组的最小可信度权值。因为知识图谱的数据来源是动态更新的,所以不同的关系三元组的可信度值和对应的可信度阈值也是动态更新的。随着数据量和数据可信度的增加,用于创建知识图谱的情感障碍症数据库中的内容也在不断更新迭代,以保证数据的准确性以及实时性。5.3基基于可信度阈值的自适应加权估计知识融合算法为提高三元组极性识别结果的准确度和有效性,在5.1 一5.2 节的基础上本文设计了一种基于可信度计算机应用文摘值的自适应加权估计知识融合算法,实

23、现对初始三元组集实体对齐、属性对齐、极性识别等操作。算法伪代码如表1 所列。表1 基于可信度阈值的自适应加权估计知识融合算法(RTSW)描述Algorithm4-1 RTSW Algorithm输人:三元组集合RDF,可信度阈值p,,语料库Normal输出:动态可信库DI,不可信库D21:Begin;/开始2:Initialization;/初始化3:forE;Ea lig n e d;/实体对齐操作4:f o r L;L a l i g n e d;/属性对齐操作5:FRDG=update(RD F);/更新初始三元组获得目标三元组6:end7:f o r q i n RD G/计算更新后目

24、标三元组中关系三元组的极性8:R=Z,;A?-Z,B,BY;/计算关系三元组可信度R值9:if(R=p)t h e n/可信度大于等于可信度阅值pa10:q=1;/关系三元组q极性置为111:DIq;/关系三元组q放进可信库D1中12:else if(R p)t h e n/可信度小于可信度阈值pa13:q=0;/关系三元组q极性置为014:Dz一k;/关系三元组q放进不可信库D2中15:endif16:end17:i f No r ma l No r ma l U/Nu p d a t e l t h e n;/动态更新基础语料库18:updateRDG;/再次更新目标三元组集19:star

25、t the iteration process;/迭代过程20:updateD,D2;/更新动态可信库D1,不可信库D221:end表1 中,通过输入初始三元组集合、可信度阈值和基础语料库,获得可信库D,和不可信库D2,即可信库D,中的关系三元组为可信关系三元组,不可信,NM库D,中的关系三元组为不可信关系三元组。(2),MN2(N+M)2023年第1 9 期6生生成知识图谱6.1 生成步骤利用动态更新的情感障碍症数据库构建可区分单相情感障碍症和双相情感障碍症的知识图谱,步骤如下:(1)追溯动态更新的情感障碍症数据库中三元组的数据来源;(2)根据数据来源将情感障碍症数据库分为单相情感障碍症子数

26、据库和双相情感障碍症子数据库;(3)利用单相情感障碍症子数据库构建单层单相情感障碍症知识图谱;(4)利用双相情感障碍症子数据库构建单层双相情感障碍症知识图谱;(5)提取单相情感障碍症子数据库和双相情感障碍症子数据库中的共有因子,共有因子包括三元组的实体单元;(6)通过共有因子搭建单相情感障碍症和双相情感障碍症的中间图层;(7)利用单层单相情感障碍症知识图谱、单层双相情感障碍症知识图谱和中间图层2023年第1 9 期构建可区分单相情感障碍症和双相情感障碍症的知识图谱。6.2图图谱可视化单相情感障碍症子数据库、双相情感障碍症子数据库以及共有因子形成的子数据库均以开源图形数据库Neo4j为底层的存储

27、结构。Neo4j是由 Java 和Scala语言写成的NoSql数据库,通过Neo4j可以直观呈现实体间的各种关系,能够最终实现知识图谱可视化。最终构建的可区分单双相情感障碍症的知识图谱的可视化局部内容如图2 所示。在该知识图谱中,不同颜色的几何图形表示三元组数据模型中的实体单元。红色圆形表示病情类型,具体类型包括单相情感障碍症(单相抑郁症)和双相情感障碍。蓝色圆形表示病情对应的临床心理状况,临床心理状况具体包括抑郁、狂躁、情绪异常、情绪低下、思维迟缓和躯体化症状。黄色圆形表示治疗药物,具体包括碳酸锂片和盐酸帕罗西汀片。绿色圆形表示病情对应的临床生理状况,包括恶心、呕吐和头晕。带箭头的虚线表示

28、实体之间存在关系,同时通过在虚线旁标注来表示关系的具体含义。在图2 中,TM表示治疗关系、SE表示治疗药物副作用关系、SYM表示实体的症状关系、EC表示实体之间易混淆关系。利用不同颜色的图形表征不同的实体单元,提高了知识图谱可视化的辨识度。情绪异常成因复杂抑郁和狂躁交-SYM-双向情替感障碍TM碳酸锂-SE片SE一SE多尿图2 Neo4j生成的可区分单双相情感障碍症知识图谱计算机应用文摘7结束语利用自然语言处理和数据挖掘等技术成功构建出的可区分单双相情感障碍症的知识图谱能够有效解决临床上单双相情感障碍症类型鉴别困难的问题,可以广泛应用于情感障碍症普适性教育、情感障碍症患者及家属自我诊断和监测、

29、辅助医生临床做决策等。同时,本文的研究成果为未来情感障碍症诊疗实现智能搜索、智能问答、智能诊断等提供了支撑。参考文献:1尹一淑,刘军莲,王佳平等.抑郁症相关发病机制研究进展J.医学综述,2 0 2 2,2 8(1 2):2 36 8-2 37 2.2田玲,张谨川,张晋豪,等.知识图谱综述一一表示、构建、推理与知识超图理论J.计算机应用,2 0 2 1,41(8):2 1 6 1-2186.3红英,窦华溢,贾玉祥,等.基于多来源文本的中文医学知识图谱的构建J.郑州大学学报(理学版),2 0 2 0,52(2):45-51.4陶雨彤,陈云筝,邵兰仪,等.中医药知识图谱的构建与应用探讨J.北京中医药

30、,2 0 2 2,41(1 2):1 38 7-1 39 2.5】赵雪娇.妇产科知识图谱构建研究与实现J.中国数字医学,2 0 1 9,1 4(1):3-5.6 HE T Y,ZHENG Y Y,BAI J,et al.Analysis of emotionalcharacteristics of Weibo“tree hole users with differentsuicide risk EB/OL.https:/dl.acm.org/doi/pdf/10.1145/治疗困3500931.3501027.驱体化难症状SYMSYMSYM睡眠障SYM碍SYMSYMECEC恶心SESE口SE-

31、盐酸帕罗西汀片SE1头晕SE便秘437韩普,马健,张嘉明,等.基于多数据源融合的医疗知识图谱框架构建研究J.现代情报,2 0 1 9,39(6):8 1-9 0.8张坤丽,胡晨馨,宋玉,等.基于多源数据的中文产科知识仅表现图谱构建J.郑州大学学报(理学版),2 0 2 3,55(1):8-1 4.抑郁状态SYMSYM单项抑SYM郁症SYMTMSYM自杀观念SE立乏力9 WANG Q,HAO Y S,CHEN F.Deepening the IDA*algorithmfor knowledge graph reasoning through neural network情绪低下思维迟缓architecture J.Neurocomputing,2021,429(14):101-109.10 BAO Y L,GEN X L,FE L,et al.Research on TourismInformation Relations Extraction Based on ConvolutionalNeural Network EB/OL.http:/ 9 9 1 一),硕士,讲师,研究方向:人工智能、大数据医疗。杨伟宏(1 9 9 1 一),博士,副教授,研究方向:机器学习、生物信息学。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服