收藏 分销(赏)

面向医药卫生知识服务系统的学术知识图谱构建与应用研究.pdf

上传人:自信****多点 文档编号:3004853 上传时间:2024-06-12 格式:PDF 页数:8 大小:2.07MB
下载 相关 举报
面向医药卫生知识服务系统的学术知识图谱构建与应用研究.pdf_第1页
第1页 / 共8页
面向医药卫生知识服务系统的学术知识图谱构建与应用研究.pdf_第2页
第2页 / 共8页
面向医药卫生知识服务系统的学术知识图谱构建与应用研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、书书书面 向 医 药 卫 生 知 识 服 务 系 统 的 学 术 知 识图 谱 构 建 与 应 用 研 究刘燕张潇潇侯丽(中国医学科学院 北京协和医学院医学信息研究所北京 )修回日期 作者简介刘燕,助理研究员,发表论文 余篇;通信作者:侯丽,研究员。基金项目医学融合出版知识技术重点实验室。摘要目的 意义 探析知识服务系统中学术知识图谱的构建框架和方法,为开展基于科技大数据的新型知识服务提供参考。方法 过程 提出面向知识服务系统的学术知识图谱构建框架及方案,以医药卫生知识服务系统为例,详细阐述构建步骤及构建过程中的关键技术。结果 结论 基于多类型科技数据资源构建的学术知识图谱有助于更好地开展学术

2、实体的关联挖掘与知识推理,提高科技数据组织管理效率,提供更高效的知识服务。关键词学术知识图谱;知识服务系统;科技数据资源;智能检索 中图分类号 文献标识码 ,医学信息学杂志 年第 卷第 期 ,;引言大数据时代,科技信息呈现出数据量大、数据类型多、价值密度低等特点,对科研人员、领域决策者等有效获取学术知识资源提出挑战 。为满足工程科技领域相关人员对知识的精细化需求,知识服务系统通过集成权威的科技数据资源、挖掘数据潜在价值、研发特色知识服务产品等,提供整合式、专业化的知识服务。然而,传统以信息搜寻和传递为主的知识服务已无法满足当前知识创新的需求,知识服务正朝着面向知识内容、面向解决方案、面向增值且

3、个性化的方向发展 。因此,知识服务系统迫切需要转型升级,科技数据资源中潜在的语义关系以及海量科技实体之间丰富的关联关系亟待有效挖掘和利用,以为用户提供更加智能、高效的知识服务。知识图谱技术的快速发展为科技数据资源的精准获取、科研实体间关联关系的深入挖掘、科技大数据的研究再利用等提供技术便利,也为知识服务系统的转型与升级带来机遇。学术知识图谱是面向学术资源构建的知识图谱应用,能够针对特定领域的特定需求,实现对海量科技数据的高效组织和管理,应用范围广且能涵盖多种类型的学术资源,为学术领域在智能检索、自动问答和个性化推荐等方面的发展奠定基础 。本研究充分结合科技工作者对知识的高精尖需求,设计面向知识

4、服务系统的学术知识图谱构建与应用框架,从本体构建、知识抽取、实体消歧、知识存储、图谱应用等核心问题入手,提出学术知识图谱构建方案,并以医药卫生知识服务系统 (:)为例,系统阐述构建流程及构建过程中的关键技术,旨在为学术知识图谱的理论研究与实践应用提供参考借鉴。相关研究 学术知识图谱学术知识图谱是以科研实体为中心构建用于描述科技大数据资源中存在的实体、概念及其关系,表征实体属性,揭示不同实体之间的复杂关系,是学术信息关联挖掘与学术知识组织管理的基础,在智慧化知识服务中具有重要的学术价值。一些大型学术出版商、高校等也开始围绕科技数据资源构建学术知识图谱,如 出版集团的知识图谱工具 和微软公司的大规

5、模学术图谱 都包含大量学者、论文、机构等层次的实体、关系和属性信息,有助于更好地挖掘和发现学术关系。清华大学的 和上海交通大学的 通过对学者、论文、机构等实体信息的抽取以及关系的建立,可为学术数据的挖掘与利用提供支持。此外,学者们也在学术知识图谱领域进行了诸多探索和实践,以期有效推动智慧学术的发展 。上述研究为基于科技大数据构建面向特定应用场景的学术知识图谱提供了有益借鉴,但大多围绕科技文献和专利展开,鲜有涉及指导性强、标准化程度高的标准、指南等数据。区别于上述研究,本研究拟基于更加丰富多样的科技数据资源,拓展学术知识图谱的语义类型,面向知识服务系统研究构建更为全面、完整的学术知识图谱。知识服

6、务系统为解决大数据环境下科技知识服务供需脱节的问题,很多机构推出面向解决方案的知识服务系统,即以用户需求为导向,围绕一个或多个领域开展科技数据资源的整合汇聚,深入挖掘数据背后的知识及知识间的关联关系,从而提供一站式、专业化的科技知识服务,如美国互联网医疗健康信息服医学信息学杂志 年第 卷第 期 ,务平台 、万方数据知识服务平台 、中国工程科技知识中心 等。知识服务系统通常具有数据类型丰富、数据来源权威、数据体量大、知识服务产品多样、可视化效果良好等特点,可为用户提供多元化的增值服务。中国工程科技知识中心是经国家批准建设的工程科技领域知识服务平台,旨在面向国家工程科技人员提供全面的信息支撑和知识

7、服务。医药卫生知识服务系统是其重点建设项目之一,该系统紧密围绕大数据环境下用户对知识服务的新需求,集成医药卫生领域文献、专利、报告等 类科技数据资源千万余条,搭建特色知识服务 个,可面向医药卫生领域工程科技人员提供科技数据资源和科研支撑服务。此外,学者们也在积极探索其他领域知识服务系统的构建与应用 ,以打造新型的科研学术生态体系。面向知识服务系统的学术知识图谱构建与应用框架知识服务系统中的数据通常由专人采集、筛选并经过严格审核,数据质量高且较为规范,有益于开展深层次的知识挖掘与关联分析。因此,本研究结合科技工作者对科技知识服务的智能化应用需求,梳理并构建面向知识服务系统的学术知识图谱构建与应用

8、框架。该框架自下而上共包括 层:数据层、技术层和应用层,即基于知识服务系统丰富的科技数据资源,利用数据处理与知识图谱技术,开展智慧化的知识服务与应用,见图 。图 面向知识服务系统的学术知识图谱构建与应用框架 数据层医药卫生知识服务系统汇聚国内外大量权威的医学科技数据资源,除常见的医学文献、医学专利、临床指南、科技报告等科技文献类资源外,还包括医学标准、医药卫生政策法规、医学专家、医疗机构等专业领域知识资源以及慢病数据、健康医疗数据、营养膳食数据等医学科学数据类资源,来源多样且类型丰富,可有效支撑学术知识的挖掘与应用。技术层通过大数据处理、语义标注、语义计算、医学词表构建等技术初步处理上述科技数

9、据资源,进而利用本体构建、实体识别、关系抽取、实体消歧、知识融合与存储、图谱查询与推理等一系列知识图谱技术,构建医药卫生领域较为全面的学术知识图谱。医学信息学杂志 年第 卷第 期 ,应用层将构建的学术知识图谱用于医药卫生知识服务系统的功能优化与应用拓展,辅助开展语义检索、智能推荐、学者画像、机构画像、医疗知识自动问答、辅助诊断与决策等,有效支持平台的智能化、自动化建设,提升知识服务系统的影响力。面向知识服务系统的学术知识图谱构建方案学术知识图谱本质上是一种异构网络,节点表示学者、机构、文献、专利、报告等学术实体,边表示实体之间的关联关系。学术知识图谱的构建要解决本体模型设计、信息抽取、实体消歧

10、与融合、存储更新、推理应用等问题,是一个不断迭代与完善的过程。结合上述学术图谱的构建与应用框架,设计面向知识服务系统的学术知识图谱构建方案,见图 ,包括搭建本体模型、抽取科技数据资源中的学术实体、挖掘学术实体之间的潜在关系、对同名实体进行消歧或融合不同表现形式下的同一实体、对抽取的实体和关系数据进行存储管理、分析学术知识图谱在知识服务系统中的应用场景等。图 面向知识服务系统的学术知识图谱构建方案 本体模型设计本体是特定领域不同实体之间连通与交流的语义载体,可用于规范具体的底层数据。为提炼和抽象医药卫生知识服务系统各类学术资源的相关内容和关系,先对知识建模,并设计学术知识图谱本体模型。结合学术知

11、识图谱本体的构建目标和应用场景,最终确定本体的范围涵盖文献、机构、学者、专利、临床指南等多种类型的学术实体,并定义这些实体之间的语义关系,如隶属关系、发表关系、引用关系、合作关系等,见图 。图 学术知识图谱本体模型医学信息学杂志 年第 卷第 期 ,针对每类学术实体设计相应的 ,定义描述其特征的若干属性、属性值类型以及约束。经统计,该本体共包含 个语义类型、个属性、个语义关系,见表 。以专家类实体为例,为其构建姓名、年龄、单位、职称等属性,以及年龄为正整数等约束,见表 。本体模型的设计可为后续学术知识图谱的构建与应用提供理论支撑。表 学术关系类型序号关系类型(英文)关系类型(中文)实体 实体 隶

12、属关系学者机构 发表关系学者文献 引用关系文献文献 贡献关系机构文献 资助关系机构项目 项目申请关系学者项目 发明关系学者专利 申请关系机构专利 出版关系期刊文献 主办关系机构期刊 合作关系学者学者 机构合作关系机构机构 报告发布关系机构报告 科学数据创建关系机构科学数据 统计数据创建关系机构统计数据 标准发布关系机构标准 临床指南发布关系机构临床指南 政策法规发布关系机构政策法规表 学者数据实体 序号中文名称数据类型最大长度学者 姓名 学者身份识别码 单位 职称 研究方向 发表文献数 性别 年龄 科室 学术知识抽取 学术实体抽取实体抽取是关系抽取、图谱构建与应用的基础,本研究中学术实体抽取主

13、要从科技数据资源结构化或半结构化的信息中抽取学者、机构、期刊、文献题目、专利名称等实体。其中,学者、期刊、文献题目、专利名称等均可从数据库表中的相应字段直接得到,但文献中的机构名称通常与省市、邮编等共同包含于机构著录项中,且存在机构合作、机构名称形式多样等客观现象,难以直接获取。因此,知识服务系统中学术实体抽取的核心问题是如何提取“作者单位”著录项中的机构名称。一方面,可以通过分析科技文献中机构著录项的组织特点和机构名称的命名特点,利用字符串匹配、词典和规则过滤进行规范化机构名称的提取 。例如,从机构著录项“河南科技大学第一附属医院麻醉科,洛阳,”中提取出机构名称“河南科技大学第一附属医院”。

14、另一方面,可以通过编码不同层级的语料,充分利用文本、字符等特征,设计基于深度学习技术的模型提取机构名称。抽取的部分机构实体样例,见表 。表 机构实体抽取示例序号文献题目原始机构著录项提取机构名称从医患纠纷视角剖析医院管理制度建设银川市第一人民医院 宁夏银川 银川市第一人民医院育龄妇女异常子宫出血的影响因素病例对照研究杭州市中医院,浙江杭州 杭州市中医院章勤治疗排卵障碍性异常子宫出血验案举例浙江中医药大学附属广兴医院 浙江 杭州 浙江中医药大学附属广兴医院此外,“基金项目”描述中的项目名称以及“参考文献”中的文献题目也无法直接获取,同样可以利用规则、边界识别或深度学习等方法提取。同时,还需要提取

15、上述实体相应的属性信息以表征实体的特性,如文献实体的题目、作者、机构、关键词、期刊、发表时间等。通过对实体及其属性信息的抽取,医学信息学杂志 年第 卷第 期 ,可有效支撑学术知识图谱的构建与应用。学术关系抽取关系抽取是识别实体间语义关系的重要方法,在知识发现、知识问答、知识图谱构建等应用中起关键作用。根据实体信息是否给出,可将关系抽取进一步细分为关系分类和关系抽取。其中,关系分类中的关系一般是预先定义好的,在给出文本信息以及实体信息的情况下,关系抽取任务等价于关系分类 。本研究中的学术关系抽取本质上就是关系分类,即基于已抽取的各类实体及上述本体模型中定义的实体关系,完成各类实体之间学术关系的映

16、射和三元组的构建。首先,针对科技文献中的文献题目、作者、作者单位、期刊、基金项目、参考文献等实体构建内部学术关系,包括作者和文献题目之间的发表关系、作者之间的合作关系等。其次,构建科技文献与专利、报告、标准等其他科技数据资源实体间的学术关系,如科技文献中的学者与专利之间的发明关系、科技文献中的机构与报告之间的报告发布关系等。最后,对构建的学术关系三元组进行校验,查看提取的关系是否正确、全面。部分抽取样例,见表 。表 学术关系抽取示例序号 头实体关系类型尾实体杨菲隶属关系银川市第一人民医院杨菲发表关系从医患纠纷视角剖析医院管理制度建设周碧海隶属关系湖北省十堰市中西医结合医院周碧海发表关系西肽普兰

17、治疗抑郁症临床体会李能隶属关系中国浙江省杭州市中医院来坚隶属关系中国浙江省杭州市中医院李能合作关系来坚 学术实体消歧学术研究领域中广泛存在的实体歧义问题增加了学术知识图谱构建与应用的难度,一方面随着科研人员数量的不断增加,学者重名问题频频出现;另一方面机构名称存在缩写、简称、俗称、更名等客观情况,导致同一机构实体可能有多种不同表现形式。因此,需对知识服务系统中的学者和机构实体展开消歧研究,以期将相关内容链接到正确实体。知识服务系统中待消歧实体的相关数据被存储在结构化数据库中,缺少上下文信息,无法利用指称项的上下文信息消歧,而要依赖其字面意思、实体关系及属性等信息消歧。学者姓名消歧对于同名学者的

18、消歧问题,主要思路是先获取待消歧学者姓名对应的文献集合,然后基于文献题目、摘要、关键词、机构、期刊等信息训练得到文献对应的全局特征向量,结合引用关系、合作关系、发表关系等关系图构建局部向量以强化全局向量,进而计算向量之间的相似度,通过聚类方法将文章划分至不同的作者子集,实现同名学者消歧。机构名称规范化对于机构名称不规范的问题,主要思路是基于字符串相似度计算、规则匹配、机构作者共现关系等方法进行实体消歧与规范化处理,即从机构名称出发,先构建机构 作者关系表,基于机构类型特征词典对机构分类,然后面向不同机构类别分别构建“机构 机构”作者共现矩阵并计算作者共现率 ,以实现机构名称消歧。部分规范化后的

19、机构实体,见表 。表 机构实体规范化示例序号文献题目提取机构名称规范化机构名称从医患纠纷视角剖析医院管理制度建设银川市第一人民医院银川市第一人民医院育龄妇女异常子宫出血的影响因素病例对照研究杭州市中医院杭州市中医院章勤治疗排卵障碍性异常子宫出血验案举例浙江中医药大学附属广兴医院杭州市中医院 学术知识图谱存储学术知识图谱的存储是指将学术实体及实体间的关系按照一定的数据描述模型存储的过程。常用的知识存储方法有两种:基于资源描述框架(,)的存储和基于图数据库的医学信息学杂志 年第 卷第 期 ,存储。其中,存储效率低、难以存储复杂语义关系,而图数据库则使用图模型将关联数据的实体作为顶点、关系作为边存储

20、,能够解决数据复杂关联带来的严重随机访问问题,已广泛应用于知识图谱、风险防控等场景。常见的图数据库包括 、等,其中 图数据库是将数据存储在图网络中的一种 图形数据库,以标签、节点、关系、属性为基本元素进行知识图谱的存储,具有嵌入式、高性能、高成熟度、轻量级等优点,能直观、清晰地了解实体间的关联规则,是知识图谱构建与应用的主流工具之一。知识服务系统中知识内容多、知识关联性强,且智能化语义检索、知识推荐、知识问答等基于学术知识的服务对实体信息的完备化表示和关系的高效关联查询提出了更高要求。因此,对于知识服务系统中的实体、关系、属性等学术知识,可采用 图数据库存储,以便更好地展示大规模学术实体之间不

21、断变化的关系,更加简单便捷地查询网络节点和关系值,实现学术实体间关联网络的构建和图谱分析。学术知识图谱应用知识图谱具备强大的知识挖掘与推理能力,可用于语义检索、自动问答、知识推荐等领域。文中基于医药卫生知识服务系统中多源异构科技资源构建的学术知识图谱,亦可用于改进系统的知识组织方式和知识服务能力,进而为医药卫生领域科研人员、科研机构、科技管理者等不同类型的用户提供个性化、智能化的科技知识服务。学术知识图谱在知识服务系统中的应用场景很多,具体包括:学术知识图谱中丰富的实体和关系信息可以帮助系统从语义层面理解用户的问题,并返回语义化、智能化的检索结果,从而提升知识服务系统的语义检索能力;基于学术知

22、识图谱提取的知识,可构建精准的学者和机构画像,为开展实体评价、科研合作等奠定基础,有效提高科技管理效率;基于学术知识图谱中丰富的实体和属性特征等数据,可以帮助用户快速、精准地筛选出相关文献、专利等资源,并根据用户的个性化需求进行智能推荐;借助学术知识图谱强大的推理能力可构建面向知识服务系统的自动问答模块,通过对话方式快速回答用户问题,且能提供有效的证据支持;学术知识图谱通过将大量的科技知识关联为网状结构,有助于发现实体间潜在的关联关系,支持科技资源规律性知识的洞察和发现。结语本研究以构建智能学术知识服务的实际需求为出发点,梳理面向知识服务系统的学术知识图谱构建与应用框架,提出面向知识服务系统的

23、学术知识图谱构建方案,并以医药卫生知识服务系统为例对关键步骤及方法进行详细介绍,包括本体模型设计、学术知识抽取、学术实体消歧、学术知识存储和学术知识图谱应用。通过对知识服务系统中学术知识图谱整体框架和构建流程的分析,有助于提升学术知识图谱构建的规范性和可靠性,为开展基于科技大数据和人工智能技术的新型知识服务提供参考和借鉴。随着生成式大语言模型在医疗领域的广泛应用,未来将充分利用大语言模型,以医药卫生知识服务系统丰富的学术信息为数据源,依托文中提出的方案,构建医药卫生领域的学术知识图谱,从而为系统的智能检索、资源推荐、知识问答等服务提供智能辅助。利益声明:所有作者均声明不存在利益冲突。参考文献

24、胡吉颖,谢靖,钱力,等 基于知识图谱的科技大数据知识发现平台建设 数据分析与知识发现,():张晓林走向知识服务:寻找新世纪图书情报工作的生长点 中国图书馆学报,():熊回香,景紫薇,杨梦婷 在线学术资源中知识图谱的应用研究综述 情报资料工作,():中国医学科学院医学信息研究所 医药卫生专业知识服务系统 :(下转第 页)医学信息学杂志 年第 卷第 期 ,国药,():姚嫱,朱思伟,李维廉 癌症患者舌象客观化的研究 青岛:第八届全国中西医结合肿瘤学术会议论文集,蒋程序“互联网 医疗”大背景下厦门市慢病管理的模式研究 福州:福建中医药大学,吕兰婷,邓思兰 我国慢性病管理现状、问题及发展建议 中国卫生政

25、策研究,():汪哲宇 数字化慢病管理系统的研究与实践 杭州:浙江大学,张丽丽,董建群 慢性病患者自我管理研究进展 中国慢性病预防与控制,():潘锋乳腺癌已迈入慢病化管理时代 中国医药导报,():何杰,李丛煌,孙铭禧,等“互联网 ”中医慢病管理模式的中西医结合疗法治疗小细胞肺癌患者生存和复诊情况分析 中医杂志,():顾晋 恶性肿瘤多学科综合治疗模式 中国实用外科杂志,():安文秀,邹韵,孙丽华,等 肿瘤医院开展多学科诊疗的探索 中国肿瘤,():姚晚侠,李明众,刘孜,等 肿瘤患者的情绪障碍及生活事件调查 中国康复理论与实践,():骆惠玉,张风贞,齐榕,等“互联网 ”肿瘤患者健康教育方案的构建 中华

26、护理杂志,():孔祥溢,王任直 人工智能及在医疗领域的应用 医学信息学杂志,():张治佳,植萱奇,黎联弟 识别技术在早期肺癌诊断中的应用价值分析 中国实用医药,():,:,?,:?(上接第 页):,:,上海交通 大 学 :王颖,钱力,谢靖,等 科技大数据知识图谱构建模型与方法研究 数据分析与知识发现,():李肖俊,邵必林 多源异构数据情境中学术知识图谱模型构建研究 现代情报,():北京万方数据股份有限公司 万方数据知识服务平台 :中国工程科技知识中心 中国工程科技知识中心 :赵瑞雪,李娇,张洁,等 多场景农业专业知识服务系统构建研究 农业图书情报学报,():唐晓波,郑杜,谭明亮 慢性病健康教育知识服务系统模型构建研究 情报科学,():金哲,潘晶,张引,等 中草药专业知识服务系统建设探讨 成都:第五届中国中医药信息大会,杨晓燕,何洪优,张波 基于大数据的营养健康知识服务系统设计研究 信息技术与信息化,():刘燕,孙月萍,侯丽 融合多策略的中文科技文献机构名称规范化研究与实践 医学信息学杂志,():王辰,李明,马金刚 电子病历关系抽取综述 计算机工程与应用,():医学信息学杂志 年第 卷第 期 ,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服