收藏 分销(赏)

突发公共卫生事件中的应急政策知识图谱.pdf

上传人:自信****多点 文档编号:729652 上传时间:2024-02-26 格式:PDF 页数:11 大小:2.20MB
下载 相关 举报
突发公共卫生事件中的应急政策知识图谱.pdf_第1页
第1页 / 共11页
突发公共卫生事件中的应急政策知识图谱.pdf_第2页
第2页 / 共11页
突发公共卫生事件中的应急政策知识图谱.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide突发公共卫生事件中的应急政策知识图谱管雨涵1,刘勘2(1.华中科技大学 管理学院,湖北 武汉 430074;2.中南财经政法大学 信息与安全工程学院,湖北 武汉 430073)摘要:构建面向突发公共卫生事件的政府应急管理政策知识图谱,利用知识互联及可视化优势,分析梳理各管理部门的应急政策发布、传递及部署措施,建立多元输入协调联动机制,提高突发公共卫生事件的应急治理效率。以新冠疫情为例,通过本体模式构建、BiLSTM+CNN-CRF算法进行实体关系抽取、数据填充,基于规则和表示进

2、行知识推理,以及基于Neo4j进行可视化图谱构建。对图谱的抽检结果表明,图谱构建质量良好,推理情况均符合逻辑。基于该图谱,可以构建出信息传递网络,改进突发公共卫生事件中政策信息传递混乱无序、政策措施缺少关联、政策发布部门缺少协调等常见问题,提供应急管理政策制定、发布与流转的快速应急通道,为克服特殊时期应急管理的不足带来新的途径。关键词:突发公共卫生事件;知识图谱;应急管理;可视化图谱构建DOI:10.11907/rjdk.221983开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391 文献标识码:A文章编号:1672-7800(2023)009-0113-11Kno

3、wledge Graph of Government s Management Policies in Public Health EmergenciesGUAN Yuhan1,LIU Kan2(1.School of Management,Huazhong University of Science and Technology,Wuhan 430074,China;2.School of Information and Security Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China)Abstr

4、act:This paper takes the advantage of knowledge interconnection and visualization to construct a knowledge graph of the government s emergency management of public health emergencies.It combed the emergency policies transmission and deployment measures of various management departments,established a

5、 multi-input coordination and linkage mechanism to improve the governance efficiency of public health emergencies.The policies on COVID-19 were taken as examples,a huge knowledge database of emergency management policy was constructed through the process of ontology modeling,BiLSTM+CNN-CRF algorithm

6、 for entity relationship extraction,knowledge reasoning based on rules and representations,and neo4j for graph s visualization,etc.Its proved to have a great quality by sampling results of the graph.In this way a visual information transmission network is presented,which improves the status quo of t

7、he lack of relevance of common policies and disorderly information transmission in public health emergencies.It creates a fast emergency response channel for the formulation,release,and circulation of emergency management policies,and overcomes the shortcomings of emergency management in special per

8、iods.Key Words:public health emergencies;knowledge graph;emergency management;visualization graph construction0 引言突发公共卫生事件多指有扩散趋势、严重危害公众安全的突发性重大传染疾病等,这类事件影响力大、危害程度高、涉及范围广,将严重危害经济发展、人民健康及社会安定1。面对突发公共卫生事件,需要依据国家政策快速制定和部署综合性的应急管理方案,及时响应和解决可能出现的各类突发问题。2020年初期,新冠疫情暴发,国务院及各地政府不断发布各项应对政策和通告,指导各级部门采取相应措施;后疫

9、情时期,在大多数国家选择与“病毒共存”的趋势下,中国仍坚持“动态清零”,总体应急管理取得显著成效。不可忽视的是,疫情初期由于信息输入渠道单一、跨域部门收稿日期:2022-08-21基金项目:国家自然科学基金项目(72174156);中央高校基本科研业务费专项资金项目(2722021EK016)作者简介:管雨涵(1999-),女,华中科技大学管理学院硕士研究生,研究方向为知识工程、优化理论;刘勘(1970-),男,博士,CCF会员,中南财经政法大学信息与安全工程学院教授,研究方向为机器学习、知识工程、社交网络。本文通讯作者:刘勘。2023 年软 件 导 刊协调薄弱等原因,导致“信息疫情”暴发,政

10、策发布落后于谣言传播,群众陷入恐慌状态,各种“信息孤岛”也导致后续应对策略发布迟缓,疫情管控和应急处理处于弱势地位。此外,由于政府应急管理实行分级条块管理模式,应急中心分散,地方决策参与和风险分担机制不足,部门间尤其是横向部门间协调能力低,合作机制运行不畅,导致部分处理政策出现程序不明确、多头同质化处理、权责混乱的情况,极大降低了政府应急管理效率2。基于此,本文以新冠疫情治理为例,构建突发公共卫生事件应急政策知识图谱。知识图谱及其实体、关系的多层次性能较好地匹配应急政策中的多主体、多主题、多对象,因此,考虑将知识图谱运用于政府应急政策。应急政策知识图谱能通过多元的输入信息、综合的共享信息,帮助

11、政策快速传播流转,构建跨部门的应急联防联控机制网络;同时,通过在图谱中对防控政策进行归纳、分类,形成应急政策知识深度关联,更好地聚焦应急政策核心,辅助中央地方联合响应、共同决策,改进应急政策部署和执行效率。本文主要贡献在于:构建应急管理知识图谱的Schema模式框架;利用深度学习和文本处理技术,形成SPO(Subject To Object)政策三元组知识结构,进而通过推理发现政策信息传递流向,构建突发公共卫生事件管理政策知识图谱;对应急政策通过知识图谱结构化、规范化,建立基本应急政策知识库,实现专业应急部门的快速查询、更新及可视化分析,并为突发公共卫生事件的应急管理提供方案生成、自动推荐等决

12、策支持。1 相关工作知识图谱可以被看作是一种特殊的语义网络,形成一种以信息为节点、关系为边的有向图,它能将数据凝练整合形成智能型知识库,清楚呈现每一条知识的全息结构,同时利用推理机制发现数据关系及其逻辑关联。知识图谱的研究主要从理论与应用两个方面展开。理论研究主要探讨知识抽取、知识融合、知识推理等构建方法中的关键步骤3。在知识图谱构建上,Hogan等4详细介绍了知识图谱的完整构建过程与构建方法。随着机器学习领域的发展,越来越多的技术被运用在了知识图谱构建中,刘峤等5介绍了一些最新的知识抽取、融合、加工技术。在知识抽取方面,目前多采用依存句法分析6、深度强化模型7等方法进行实体与关系识别;将知识

13、通过 Trans 模型8进行表示,再通过基于逻辑规则、深度学习和强化模型9的方式进行实体关系的发现与推理;对于构建完成的知识图谱,则多采用Neo4j或Gephi数据库进行可视化5,或直接使用CiteSpace软件构建整体关系知识图谱。应用研究则可以分为通用知识图谱和领域知识图谱应用。其中,通用知识图谱的构建已经较为成熟,目前典型的通用知识图谱包括国外的 YAGO、DBpedia、Freebase和国内的zhishi.me、CNDBpedia和OpenKG等项目,包括谷歌、百度、搜狗在内等企业都构建了基于知识图谱的搜索引擎,如谷歌搜索引擎、搜狗知立方等10。这些知识图谱,将无规则语言转化为高度结

14、构化可用知识并用于深度搜索和知识问答,有效地提高了网络检索的效率与质量。近年来,领域知识图谱应用越来越多,针对2020年初暴发的新冠肺炎疫情,研究人员构建了病毒传播知识图谱11、医疗用药知识图谱12。国内 OpenKG 平台14则建立了新冠知识图谱专题,包含病毒科研知识、临床方案、防控常识等14。这些知识图谱在疫情传播控制15、疫情舆论引导16、风险防范管理17等方面发挥了重要作用。关于应急管理图谱,李纲等18关注重大国家安全事件构建图谱,全面监控掌知全局安全动态。张海涛等19-20以新冠疫情和大旱事件为例构建事件图谱,探究国家安全事件图谱的态势状态提取方法。正是由于图谱的强关联性,能较好地着

15、重于事件发生状况和发展状态,与政策文本处于发展传递状态相匹配,故而考虑构建政策知识图谱。此外,由于政策的格式规整性,知识图谱对于政策文件有较好应用。Wang等21基于规则和机器学习抽取实体关系,构建政策图谱分析平台。韩娜等22聚焦于“开放数据”和“数据安全”主题,利用规则关联和定量分析对政策文本进行协同性语义推理。张雨等23构建科技垂直领域知识图谱,更好发挥科技政策引领科技发展。单晓红等24构建政策影响事理图谱,找出关键节点有效进行政策管控。霍朝光等25利用TF-IDF和强化字典构建新冠肺炎政策知识图谱,归档重大突发公共卫生事件处理方案,追溯政策法律渊源。目前政策图谱多聚焦于政策计量,集中于关

16、联分析和归档处理,多采用人工或简单规则方式26,灵活性与完整性较差;而知识图谱构建方面少有聚焦于重大突发公共卫生突发事件,且未有完整的可以重复利用的应急管理框架以供未来参考和回溯。在应急管理方面,尽管目前新冠疫情在国内得到了良好的控制,但是不可忽视疫情初期的无序状态。丁荣嵘等27提出当前政府应急管理效率低下,需要建立一个统一的应急管理体系标准,健全协同管理体系,对政策信息智能分类、简化归口、直达直报。杨雯等28认为疫情期间政策发布制度不完善,逐级政策发布导致跨域部门沟通不充分,建议应建立应急治理中心指挥枢纽,加强行政系统内部合作,共享信息协调多部门联合调动。王媛29强调对于突发公共卫生事件,政

17、府应急管理缺乏内部主动性,过度依赖上级决策,同时应急预案制定沟通不充分,跨区域协调困难,提出中央和地方、多地方、多机构、多部门合作平台的亟需性。基于此,本文聚焦于上述问题,利用知识图谱在构造和应用上的独有特征,构建突发公共卫生事件中应急政策知识图谱。114第 9 期管雨涵,刘勘:突发公共卫生事件中的应急政策知识图谱2 知识图谱构建2.1Schema构建在逻辑上,知识图谱分成两个层系:Schema本体模式层和 Data 数据层。其中,Schema 层是知识图谱构建的核心与重点,它定义了各类实体间以及实体属性间的关系,通常使用本体库进行管理。本体库相当于知识库的模型,良好的 Schema层次为知识

18、图谱的构建搭建了框架,这样形成的知识冗余少、泛化能力强,推理出的关系也更全面。而Data数据层由基本的事件、事实构成30,是知识的基本存储单位,一般情况下,使用SPO三元组形式来表达知识。华斌等31结合政策精准性四大要素,将政策分为主体、客体、目标、工具四大类。本文针对疫情应急管理知识图谱设计的 Schema本体则需要考虑两个因素:每则政策公文的结构层次体系;执行部门对政策的落实要求。政策数据实体关系如图 1 所示,包括部门、标题、内容、附件等。本文设计6种实体类型和9种属性类型,各类实体的定义与实体间的映射关系如表1、表2所示。政策文件的实体间关系较为简单,华斌等31将政策实体间关系主要分为

19、六类,张雨等23则分为四大类。根据构建的以上实体及属性,本文主要设计了6种关系类型,将实体之间连接起来,其关系映射如表3所示。这样,通过对实体、关系、属性的定义,将来源于国务院和各省政府政策文件库的半结构化数据和部分非结构化数据转换为知识图谱所需的结构化格式,通过实体间关系与属性,可以实现政策知识的统一表示,使分散的管理政策相互联系。2.2知识抽取知识抽取过程中可以将实体与关系分别抽取,也可以采用联合抽取模型,联合抽取能同时考虑实体与关系之间的联系,故而犯错较少。但由于本文实验中使用大量半结构化数据,可以通过简单的规则提取出部分实体与关系,因而采用实体与关系分开抽取的流水线模型。2.2.1实体

20、抽取本文采取基于 BiLSTM+CNN-CRF 的实体抽取32算法,先用NLPIR汉语工具33识别出主要实体,再用少量人工标注语料训练BiLSTM+CNN-CRF模型实现命名实体抽取,这样能在极大减少人工标注的基础上得到有效的实体识别效果。BiLSTM+CNN-CRF 模型由 CNN、BiLSTM 和 CRF 3 个模块组成。首先将输入文本通过Word2vec分布式嵌入方式将每个词处理为n维词向量;然后将处理好的词向量分别输入CNN模块,提取出文本的字符级特征,再输入BiLSTM模块,提取出全局特征,将得到的字符向量和词向量进行拼接,输入全连接层和CRF模块进行解码,利用已有标签,选取一个最优

21、的标记序列。只使用BiLSTM时,如果输入过长,会对较前的输入丢失较多的特征,因此引入CNN先输入文本的局部特征,减少信息丢失。同时,CRF相比于 Softmax可以更好地考虑标签间的影响与偏置,综合计算每个词X的得分s(X,y),得到实体标签的概率p(y|X),在训练过程中,使用对数似然最大化正确概率p(y|S),计算公式如式(1)所示,尽可能地优化标签序列如式(2)中的结果y*。实体2(通知大标题)实体3(通知主题)实体4(子部门对象)实体5(通知内容)实体6(附件)关系关系1 1发布关系关系2 2包含的主题关系关系3 3通知的对象关系关系4 4通知实体7(通知大标题)关系6 参考的通知实

22、体1(部门)关系关系5 5 附录 Fig.1Policy data entity relationships图1政策数据实体关系Table 1Knowledge graph entity types and examples表1知识图谱实体类型及样例实体类型DepartmentSubordinateTargetTopicAnnouncementContents中文含义部门主体(部门主体下)子部门小对象主题通知主体涉及细节内容样例教育部、财政部、交通运输部总务处、后勤处招生场所工作人员、考务人员考试组织管理2020年全国普通高校招生工作考试组织、物资管理Table 2Knowledge grap

23、h attribute types and examples表2知识图谱属性类型及样例属性类型create_datepublish_timesubjecttypefromauthoritynocontentsaccessory中文含义成文时间发布日期公文分类主题分类来源发文机关发文字号通知具体内容附件样例2020年3月31日2020年科技、教育、工业、交通、其他通知、公告海关总署网站教育部教电 2020 150号认真研判7月初疫情情况,制定疫情新冠肺炎疫情相关租金减让会计处理规定Table 3Knowledge graph entity relationships and examples表3

24、知识图谱实体关系及样例实体关系模型do_realse(发布)subtitle_of(包含)theme_of(主旨)notify_to(通知)include_of(属于)refer_to(参考)中文含义发布包含的内容属于的主题类别通知的对象从属的对象引用参考样例、1152023 年软 件 导 刊log(p(y|S)=s(X,y)-log(yYes(X,y)(1)y*=argmax(S(X,y)(2)BiLSTM+CNN-CRF模型进行实体抽取的算法如下:对政策文本进行序列标注的具体处理过程如图 2所示。2.2.2关系抽取关系抽取主要是为了得到应急管理政策公文、实施部门等实体间的关系。本文关系抽取

25、通过卷积神经网络CNN实现。将对政策信息实体抽取完成后得到的词向量和相对位置特征作为输入,加入到CNN中获得句子级向量表示,这个句向量通过非线性全连接层计算输出进行关系分类,通过上述模型训练得到实体间的关系。关系抽取流程如图3所示。2.3知识表示与推理在进行知识推理前,首先要通过实体链接和实体对齐等方法,统一实体名称、合并同义三元组,消除知识冗余。由于本文构建知识图谱源数据为政策类文件,格式较为工整,并无太多相似或冗余知识,通过定义一些简单的规则即可进行消歧,如将实体“新冠”“新型冠状”“COVID-19”看作是同一个实体,将“省政府”“省人民政府”看作同一对象等。数据经过人工检测已基本不存在

26、有歧义或多余的三元组。知识推理是知识图谱构建中十分重要的一环,通过知识推理可以发现一些新的政策间和政策部门间的关系,这对应急管理尤为重要,能极大程度地提高政策部署和执行过程中众多实体的深度关联。由于本文知识图谱所涉及的部门实体大多是上层部门(Department),同时政府应急管理政策文本常常较为宽泛,没有详述具体部门(Subordinate),为了更方便具体部门内部人员查询和使用,实现政策通知更精准的发放,在进行知识推理前先补充了600个常见具体政务部门实体数据,加入管理政策知识库中,数据来源于中文通用百科知识图谱中的部门数据34。针对其中出现的部门间名称重复、简写的情况,需要在特定的简写前

27、加上部门限制,使其一一对应。以教育部为例,导入的子部门节点如表4和图4所示。本文采用基于规则的推理与基于分布式图的推理两种推理方式35。基于规则的推理能利用简单的逻辑运算推断出政策通知的传递过程;基于分布式的推理则能在信息缺失的情况下更好地关联知识,深入挖掘实体间的关系,更好地处理复杂的实体间关系。2.3.1基于规则的推理按照实体周围政策节点的连接推断出此节点可能存在的新连接,进而推理出实体之间的连接关系36。比如消Table 4Example of triplet for a sub-department of the Ministry of Education表4教育部子部门三元组示例上层

28、部门教育部教育部教育部教育部教育部教育部教育部教育部具体部门办公厅政策法规司发展规划司综合改革司人事司财务司基础教育一司关系include_ofinclude_ofinclude_ofinclude_ofinclude_ofinclude_ofinclude_ofinclude_of非线性神经分类非线性神经分类关系提取特征向量采样)最大值最大值(池化层池化层特征向量提取卷积层卷积层位置向量词语向量字符串 Fig.3CNN-based relation extraction process图3基于CNN的关系抽取过程输入:部分标注数据集、原始数据输出:标注实体数据集步骤:(1)将原始数据转换为词

29、向量集(2)得到的词向量输入CNN和BiLSTM(3)初始化双向长短时层,求解网络权重矩阵(4)初始化卷积层,设置参数(5)拼接输入(3)、(4)的词向量(6)对结果进行加权后输入条件随机场,得出最优序列标注模型(7)修改参数的设置,比较结果(8)将模型应用到数据集BiLSTMBiLSTMBiLSTMBiLSTMBiLSTMw0w1w2w3w41.50.90.10.080.050.20.40.10.110.050.090.020.030.080.100030.0020.20.070.050.120.20.10.0650.5CRF0 I-Main000B-Department I-Main 0

30、B-Department 0B-Department I-Subordinate 0 B-Department 0 0.20.90.3 B-Department I-Main 0 B-Department 0 Fig.2Entity recognition algorithm flow based on BiLSTM+CNN-CRF图2基于BiLSTM+CNN-CRF的实体识别算法流程 116第 9 期管雨涵,刘勘:突发公共卫生事件中的应急政策知识图谱息在管理部门之间可能的传递性,从主部门推理到具体从属部门,推理过程用一阶谓词逻辑表示为:通知,notify_to,对象 A对象 A,includ

31、e_of,对象 B通知,notify_to,对象 B。实例如图 5、图 6 所示,从教育部,include_of,高等学校新冠肺炎防治方案,notify_to,高等学校。其中,图5为教育部发布通知,通知自动推理到其下属涉及部门,推理结果如图6所示,从而揭示了教育部疫情防控方案与高等学校的关系。这种推理规则只适用于所属子部门属于同一类对象而不适用于各司其职分管不同事物的子部门,如教育部分管所有高校,有关考试防疫的政策通知应传递到与通知内容相关的所有高校而不能传递到下属报刊社、传媒出版集团等部门。2.3.2基于表示学习的推理本文基于TransR模型37为每个关系引入一个映射矩阵,将实体投影到对应的

32、关系空间中,得到三元组的映射向量,具有关系的实体相互靠近,其损失函数表示如式(3)所示。fr(h,t)=|hr+r-tr|22(3)其中,MR为映射矩阵,h为头实体,t为尾实体,r为关系 向 量,h r、tr为 h 和 t 在 M 上 的 映 射,h r=hM,tr=tM。基于表示学习的推理,其具体思想是将实体、关系映射为向量表示,根据向量的空间距离自动学习推理所需特征,使得知识图谱能够通过预设向量空间的特征表示自动计算实现推理过程。理论上,重复路径多的并在同一层次上的实体被通知到的可能性更大,推理过程表示为通知,notify_to,对象 A通知,notify_to,对象 B,其中对象A与对象

33、B之间没有明显上下层次关系。如从推理到,其中自治区和直辖市都属于同等层次Target可通知目标实体,它们在许多通知中有相似的传递路径,空间距离向量近,因而可以合理推理出该通知应该同时传递给两者。3 实验与分析3.1总体框架本文基于新冠肺炎疫情的管理政策文件实现知识抽取、知识推理、知识存储等知识图谱构建过程。其中,知识抽取从半结构化和非结构化的疫情应急政策数据中通过人工抽取与自动抽取的方式得到图谱中的部门节点与政策节点,核心是抽取出数据中的对象实体、关系及属性,形成SPO三元组知识。知识推理则是发现实体节点之间可能存在的关系,实现政策间互联,发现更多潜在的应急方案知识。最后,将知识存储在图数据库

34、以进行可视化且不断补充完善,形成全面的突发公共卫生事件应急管理知识库。本文总体知识图谱构建模型如图7所示。3.2数据来源与预处理可供选择的新冠肺炎疫情应急管理政策信息来源主要包括国务院政府政策文件库、各省官方网站、人民日报官网等,考虑到国务院和省政府官网数据较为正式明确、数据格式规范,本文选择国务院文件库与各省政府官方网站作为数据来源,选择湖北、湖南、广东、河南、江西、浙江、安徽 7个疫情较为严重的省份。采集数据时设置检索关键字为“新冠肺炎”“新型冠状病毒肺炎”或“COVID-19”,设置时间“两年内”进行筛选,截至 2021年 12月 31日,最终共搜集国务院政策文件304篇,各省政府文件8

35、 951篇。为了后续政策文本实体抽取,需要先对训练数据进行标注以训练模型,本文采取BIOES标注规范,只要不在三元组中的字标签都为O,其余字符按照标注格式:实体类型(下述6种实体类型每种用一个字母表示)-位置(B begin/I inside/E end/S single)+顺序编号(B/I/O/E 种的第几位),依次进行标注,具体方法如图8所示。其中,“教”标Fig.5Pre-inference relationship of the three(example of rule reasoning)图5推理前三者关系(规则推理举例)Fig.6Post-inference relationsh

36、ip of the three(example of rule reasoning)图6推理后三者关系(规则推理举例)Fig.4Sub-departments of the Ministry of Education imported图4导入的教育部所属子部门 1172023 年软 件 导 刊记为“部门Department类型-处于实体开头begin+开头的第1个字符”,“育”标记为“部门Department类型-处于实体中间inside+中间的第1个字符”,“部”为“部门Department类型+处于实体末尾end+最后的第1个字符”,“关于”一律标记为“O”表示非实体。标注完成后,按照一定

37、的规则检验标注正确性,包括:同一个实体对象中,B和E只能出现在开头结尾处且只能被编号为1;I只能出现在B和E中间且编号递增;S只能出现编号1的情况。3.3图谱构建目前阶段,并没有专门针对政府文件的标注语料库,实验中利用中文语料库以及部分手工标注数据训练,共选取国务院发布的200篇政策共10 069条数据进行了标注。实验中,训练语句取80%,测试语句取20%。本文利用 BiLSTM+CNN-CRF 模型从 9 255 篇政策数据中共抽取实体33 072个,表5列举了部分抽取的实体结果及规模情况。关系抽取仍采用此前标注的10 069条数据进行训练。实验中,经过多次参数调整,最终选择学习率为0.01

38、,dropout 值 为 0.1,迭 代 次 数 选 择 为 10 轮,filter 为 3,kernel_size为4。经过关系抽取,共获得405 368条关系,以“新冠肺炎疫情联防联控机制”政策为例,关系抽取后得到的部分结果如表6所示,每行展示一组信息,表示为实体1与实体2之间的关系,由于一句话可能包含多个实体与关系,故需将每个关系分开进行单独处理,如“联防联控机制”包括“激活应急指挥能力”“提升核酸检测能力”“加强溯源”等7个小要求,需将每个小要求均与大政策“联防联控机制”单独联系为subtitle_of(包含)。知识抽取完成后,基于简单部门逻辑的推理后,再将实体映射到对应关系空间进行向

39、量表示以预测链路,每次选择80%三元组作为训练集,设置向量嵌入维度为200维并通过10轮迭代训练,进行实体关系预测。同时,在训练过程中,对于不符合事实逻辑的错误推理,需要及时进行修正、删除,然后重新进行训练,经过多轮反复,新冠疫情政策知识图谱内容会逐渐完善,推理结果将会逐渐准确。Fig.8Schematic diagram of data labeling strategy in the process of entity relation extraction 图8实体关系抽取过程中的数据标注策略示意图 政策文本爬取BiLSTM+CNN-CRF预训练模型知识抽取结构化数据 知识加工推理基于逻

40、辑的推理质量评估基于图的推理数据整合质量评估 知识存储与可视化 图谱存储政策文本查询 可视化分析政策预测关联政策查询Neo4j图数据库 schema本体建模实体建模关系建模属性建模文本预处理清洗分词BIOES分词标注模型实例构建关系分类模型构建实体分类模型构建实体抽取关系抽取 实体语料库国务院官方文件库、各省政府文件文件库、人民日报、政策年度汇总文件、微博政策语义向量表示Trans预训练模型谓词推理半结构半结构/非结构化数据源非结构化数据源 Fig.7Knowledge graph construction model of COVID-19 emergency management poli

41、cy图7新冠疫情应急管理政策知识图谱构建模型 118第 9 期管雨涵,刘勘:突发公共卫生事件中的应急政策知识图谱以上实验重复 5次,最终结果取均值,实验结果如图 9所示。试验结果表明,该模型能较好地在该政策数据上进行推理。经过两种推理完成后,本文知识图谱关系数量增长26 933条,最终图谱规模如表7所示。随着通知数目的增加、涉及部门的进一步详细分类以及图谱中加入更多的部门实体,图谱将能够推理出更多的关系。3.4模型质量评估在进行知识抽取后,对抽取结果进行评估,采用常规准确率、召回率和F值作为评价指标。如表8所示,分别与只使用 BiLSTM 的算法和 BiLSTM-CRF 算法进行对比,最终本文

42、模型准确率达 85%以上,说明了 BiLSTM+CNN-CRF模型的有效性。在知识推理环节,采用损失值Loss作为判断指标,当损失函数不再下降时,认为推理完成。在知识推理完成后,还需要进行错误评估、知识更新等加工过程,以提升知识图谱的可靠性和结构性。构建好的知识图谱可能存在一些错误,主要集中在3个方面:上下位问题即图谱应该呈树状结构而无环、实体属性偏差、实体间关系逻辑错误。推理后得到的图谱经过查找,发现无环状结构;对于属性偏差和逻辑错误的问题,通过人工分组随机抽检,从最终图谱中随机抽取500个实体和 500组推理关系,经过检验,认为它们的属性无异常情况,推理均符合实际逻辑。此外,在实际应用时,

43、每个部门也应该自行检查自己部门的知识可信度,若发现可能存在的推理错误时,可及时更正、删除,保证图谱及时更新,这也是进一步提升政策传递推理准确性的关键。3.5图谱可视化本文利用RDF和图数据库的方式实现政策知识存储,然后利用Neo4j图数据库实现管理政策信息可视化。通过Neo4j数据库实现实体关系存储,实体包括疫情政策的对象、主题、内容等。图10展示了单个政策信息结构(彩图扫OSID码可见),包括发布部门Department“中医药局办公Table 5Examples and specifications of main entity extraction results表5主要实体抽取结果举例

44、与规格抽取实体类型主要部门子部门小对象主题通知主体细节总计抽取的实体外交部、国家发展和改革委员会、科学技术部、国家民族事务委员会、国家安全部、司法部、人力资源和社会保障部、生态环境部、交通运输部等教育部政策法规司、教育部发展规划司、教育部综合改革司、教育部人事司、教育部财务司等企业、学校、事业单位、医院、港口、餐饮、社区等复工复产、就业、疫情防控、肺炎诊疗、税收、资产等春耕生产工作指南、促进商业消费激活疫情应急指挥体系、提升核酸检测能力、加强流调溯源力量、严格重点人员隔离管控等实体数目1362 43316 4231 55238212 14633 072Table 6Partial extrac

45、tion results of policy relationship of joint prevention and control mechanism for COVID-19表6“新冠肺炎疫情联防联控机制”政策关系部分抽取结果实体1国务院国务院国务院国务院国务院国务院强化应急指挥体系建设联防联控机制联防联控机制联防联控机制激活疫情应急指挥体系激活疫情应急指挥体系激活疫情应急指挥体系提升核酸检测能力提升核酸检测能力提升核酸检测能力加强流调溯源力量加强流调溯源力量加强流调溯源力量关系do_realsenotify_tonotify_tonotify_tonotify_tonotify_ton

46、otify_tosubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_ofsubtitle_of实体2联防联控机制省自治区直辖市人民政府部委直属机构党政激活疫情应急指挥体系提升核酸检测能力加强流调溯源力量建立健全工作专班保持24小时运行状态加强前线指挥力量明确核酸检测能力要求提升核酸检测质量加强重点人员筛查加强各方协作拓宽流调溯源思路提升病毒基因测序能力Table 8Entity extraction algor

47、ithm comparison results表8实体抽取算法对比结果(%)序号123实验方法BiLSTMBiLSTM-CRFBiLSTM+CNN-CRF准确率P59.4180.5888.24召回率R55.5476.0186.03F值57.4078.2287.12损失交化0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.50.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 5 5 10 10 15 15 loss0 0 2020epochFig.9Change of loss curve图9损失变化曲线Table 7Policy knowledge gra

48、ph scale表7政策知识图谱规模类型规模数量实体33 672关系432 301 1192023 年软 件 导 刊室”(绿色圈)、通知主体Announcement“强化中医医疗机构新冠肺炎疫情防控工作”(粉红色圈)、内容Contents(玫红色圈)、通知对象Target(蓝色圈)等。图11则为部分政策通知的节点展示。以管理政策实体“强化中医医疗机构新冠肺炎疫情防控工作”为例,其属性情况如图12所示,包括公文主题分类、公文种类、发文字号、发文机关、成文日期等。一个通知对象会被若干个具体通知所涉及,这些通知属于不同主题,其中通知节点会根据通知路径的相似或距离的相近自动推理到可能被通知的对象。图1

49、3以中医药管理局为中心节点展示了知识图谱中发布政策的代表性细节结构,一个部门会发布若干个通知,每一则通知又包含若干个具体通知内容,会通知到不同的对象。Fig.11Partial management policy nodes图11部分管理政策结点Fig.10Single policy structure图10单个政策结构Fig.12Entity property图12实体属性Fig.13Partial graph of the notice of National Administration of Traditional Chinese Medicine图13国家中医药管理局通知部分图谱 1

50、20第 9 期管雨涵,刘勘:突发公共卫生事件中的应急政策知识图谱4 图谱应用分析4.1应用部署整个突发公共卫生事件应急管理政策知识图谱的部署和应用结构如图 14所示。在这种政策发布模式中,中央政府具有最高权限,原先政策分级发布、疫情分级管理模式变为扁平化结构,将权力分散,极大减少了政策传递的时间损耗。该结构通过“政策知识图谱信息系统”的智能模式,辅助中央机关部门实时自动监督各地机关部门,从全局评估并强化各地应急管理能力。这样知识图谱的构建相当于建立了一个全面的政策信息管理平台,形成了一个专业的突发公共卫生事件资源库,辅助实现多元共治、内生驱动的绿色响应信息应急通道,实现统一快速的应急管理。4.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服