1、DOI:10.11991/yykj.202202004网络出版地址:https:/ 图数据库;PCNN;LSTM;CRF;搜索中图分类号:TM721文献标志码:A文章编号:1009671X(2023)04007905Research of power system knowledge atlasLIShimingPowerDispatchingControlCenter,ChinaSouthernPowerGridCo.,Ltd.,Guangzhou510000,ChinaAbstract:Inordertoorganize,manageanduseenormousdataofthesepow
2、ersystemdatamoretimelyandeffectively,it is necessary to use knowledge map technology to transform them into power related knowledge to help powerdispatchersmakedecisions.Basedontheexistingdatabase,theframeworkoflongshort-termmemory(LTSM)+conditionalrandomfield(CRF)structureisadoptedtoextracttheentit
3、yofpowerknowledge,andthenthepulsecoupledneuralnetwork(PCNN)neuralnetworkmodelisappliedusedtoextracttherelationshipbetweentheentitiesinthe database,and extract the relevant power knowledge,which effectively improves the accuracy and speed ofknowledgeextraction.Keywords:knowledgeatlas;entityextraction
4、;relationshipextraction;Neoj4graphdatabase;PCNN;LSTM;CRF;search电力作为我国国民经济基础的重要基础行业,其对自身的运行数据进行挖掘尤为重要。在电力大数据时代的今天,我国电网每天都会产生海量的电力数据,但目前对这些数据的挖掘和使用却十分有限,难以高效地辅助调度人员进行决策12。目前知识图谱在国内虽然有一些应用(如百度、搜狗等搜索引擎),但是在针对电力调度领域的相关研究还非常少3。本文旨在搭建一个电网调度领域的搜索引擎,方便调度人员进行专业的知识检索,从而提高其工作效率。1电力系统中数据类型与特点电力系统在工作时每天会产生海量数据,这些
5、数据包括系统运行时产生的各种信息,也包括各种工作计划、活动记录等。这些数据按照数据规范由低到高可分为结构化数据、半结构化数据以及非结构化数据。典型的数据类型如表 1 所示。表1电力系统中数据分类数据来源 数据类型数据描述规范等级电网生产管理系统设备台账如变压器等设备的具体铭牌参数结构化状态监测信息监测装置信息、监测参数信息结构化状态评价信息设备状态评价信息,状态量等半结构化缺陷故障信息缺陷设备信息,缺陷种类,性质。所造成的隐患类型、等级等信息半结构化或非结构化电网运行管理系统电网运行信息电网运行时的各种参数,如电流、电压、频率、功率因数等信息结构化从表 1 中可以看出,电力系统中的数据的来源较
6、多,数据结构化程度较高,但数据相互之间收稿日期:20220211.网络出版日期:20230515.作者简介:李世明,男,高级工程师.通信作者:李世明,E-mail:.第50卷第4期应用科技Vol.50No.42023年7月AppliedScienceandTechnologyJul.2023的关联性较低4。因此需要通过知识图谱将电力系统中的各种不同的数据进行分析归类,从中提取业务知识并建立电力业务间的知识关联,最终实现用自然语言来实现对电网进行描述5。2知识的抽取与融合构建知识图谱需要有 4 个步骤,分别是知识抽取、知识融合、知识存储和知识图谱搭建。构建步骤如图 1 所示。结构化数据半结构化数
7、据非结构化数据数据源实体抽取关系抽取知识抽取知识表示知识融合知识推理知识图谱属性抽取实体消歧指代消除知识验证图1构建知识图谱的步骤4 个步骤中首先是知识抽取,其最主要的目的是将数据源中的所有数据加工为知识三元组,为后期的数据综合利用、最终构成结构化知识打下基础。采用的知识抽取过程如图 2 所示。训练集文本测试集文本训练集模型训练测试集测试训练图数据库图2电力知识抽取流程其中关键步骤为从已有的电力系统知识库以及互联网中搜索到的电力系统知识作为训练集合,使用训练集合对神经网络模型进行训练,最后对模型的精准率进行验证。2.1实体的抽取采用长短期记忆网络+条件随机场(longshort-termmem
8、ory+conditionalrandomfield,LSTM+CRF)经网络模型进行实体抽取,模型分为 3 层,分别为词嵌层(wordembedding)、长短期记忆网络(longshort-term memory,LTSM)层 和 条 件 随 机 场(conditionalrandomfield,CRF)层。其结构模型如图 3 所示。词嵌层作为模型的输入层,主要功能是将句子中的单词依据特定规则进行映射,最后将一个句子变为词向量和字向量。LTSM 是循环神经网络(recurrentneuralnetwork,RNN)的一种变体,在神经网络的训练过程中,其能够将以前的信息连接到当前任务中,有效
9、地避免了 RNN 在循环 过 程 中 产 生 的 梯 度 爆 炸 与 消 失 的 问 题6。CRF 层的主要目的是对 LTSM 层的训练结果,通过已设定约束条件对其进行筛选,提高识别准确度。条件随机场E-PERS-LOCB-PEROMARKWANEYVISITMARSC4C3C2C1R4R3R2R1I4I3I2I1词嵌层长短期记忆网络图3LSTM+CRF 模型2.2关系的抽取脉冲耦合神经网络(pulsecoupledneuralnetwork,PCNN)模型非常适合于处理自然语言和文本分析、分类等工作7,适用于知识抽取中的关系抽取。其主要思想是按照自然语句中实体的数量对其进行分段,然后分析每段
10、之间实体的距离与位置之间的关系特征,最终得到实体之间的关系。PCNN 的神经网络结构如图 4 所示。.isJack,thesonofmike.文本特征位置特征向量C2C1卷积层最大池化层Softmax分类图4PCNN 神经网络结构神经网络的第 1 层是向量表达层,在该层中,80应用科技第50卷1 个自然语言的句子会按照句子之中的主体(句中关键词,比如电流、电压、频率等)进行分段,对句子中的每个词与主体的距离进行编码,得到位置特征,将文本特征与位置特征进行拼接,从而形成向量。第 2 层是卷积层,对上述向量进行卷积计算提取特征。再经过第 3 层最大化池化层与第 4 层 softmax 分类,最终得
11、到主体之间的关系。3电力系统知识图谱的搭建3.1Neoj4 图数据库知识的存储有 2 种方式,一种是利用常规的关系型数据库如 SQLServer 或 Oracle 进行存储,另一种是利用图数据模型进行存储。但由于知识图谱数据的特点,将知识作为数据存放在常规数据库中会导致数据库的规模变得很大,并且对数据的操作和查询都会变得非常困难89。因此一般采用图数据库来存放知识,如 NoSQL 数据库,它是一种用图的关系来描述数据之间关系的数据库。在该数据库中,节点代表实体,边代表关系或者属性。Neoj4 是一种较成熟的图数据库,其具有可扩展性强、数据处理效率高以及可支持多核处理器进行并发运算等特点,并且在
12、使用过程中能够有效地保障用户的数据安全1011。3.2电力系统知识图谱的搭建将抽取的电力系统相关知识存入 Neoj4 数据库中,形成实体数据库。按照图 5 的框架来搭建电力系统的知识图谱。区域电网数据实体数据更新关系数据更新数据索引索引库数据检索数据分析互联网应用实体知识库(Neo4j)图5电力系统知识图谱框架在图数据库 Neoj4 中,实体(如 1 个变压器、断路器等)将被用 1 个节点来进行表达,节点之间的连线则表示各个实体之间的关系1215。每个节点和边都有属性,属性值按其描述对象性质可动态更新。经过上述转换,可将电力系统中的各种设备的信息转换为图的形式存储于 Neoj4 数据库中。在安
13、装好 Neoj4 数据库后,通过 Neoj4-import 将区域电网数据与互联网中的数据导入数据库后,所形成的部分电力系统知识图谱如图 6 所示。同时,如果日后还需要添加新的知识(新的节点),可通过 Cypher 语言以 CREATE 语句方式动态更新加入到电力系统知识图谱。监控中心运行参数设备规格设备状态管理阶段专家系统作业标准正常异常状态状态输电设备变电设备开关设备二次设备记录电流电压频率功率管理运维检修设备调试竣工验收退役报废行业标准企业标准国家标准设计原因制造原因环境因素材质原因参数评价评价评价评价参数参数参数评估标准标准标准标准阶段阶段阶段阶段设备设备设备设备登记管理图6部分电力系
14、统知识图谱第4期李世明:电力系统知识图谱的研究813.3分类器特征值选取通过分类器训练进行问句中特征词、特征词表映射,从而获得特征向量。例如对于输入问句“三峡水电站的年均发电量是多少?”,经分词处理后,得到词组“三峡/水电站/的/年均/发电量/是/多少/?”与特征词表特征值进行映射,先设置特征向量全部位置为 0,在句中有特征值表中的特征词存在时,设置特征向量中特征词所在位置为 1。因问句中有“年均”、“发电量”2 个特征词存在,因而,可得到表 2 所示的特征向量。以此类推,将各类训练问句进行转换,从而得到所对应的特征向量。表2示例问句的特征向量特征词表词序号12319特征向量0001特征词表词
15、序号20212223特征向量0010 3.4知识融合电力系统中的数据的来源是多样且复杂的,在进行知识抽取的过程中,为了保证抽取知识的有效性,需要对抽取出来的知识进行进一步融合。将知识中表述含义相同但说法不同的主体进行归一化,例如设备故障报告中提到的“工作正常”和“无故障”的表述,其表达的含义是相同的,只是在说法上不同,因此可以对抽取后的知识进行一次字符串的匹配,将这些相同意义的表述进行归一化处理,归一化处理后,重复知识的数量将大幅下降。4抽取模型验证及系统功能测试4.1数据预处理本 研 究 采 用 谷 歌(Google)的 词 向 量 工 具Word2Vec,其特点是能将单词转化为向量。在实际
16、中,使用词汇表通常为百万级以上,处理高维数据会消耗大量计算时间、资源;Word2Vec 词向量可将词与词间的关系很好地表示出来,且维度大幅度降低,同时包含的语义信息更多。应用Word2vec 词向量工具训练数据集,表 3 为词向量训练参数。表3Word2Vec 训练参数参数含义参数值size属性50window窗口大小5sample随机采样0softmax分类1Min_count最少词频5 4.2数据集构建搭建电力系统知识图谱先要进行数据集的构造。相关实体从电力领域专业词典中获取,其中有182341 个词语与电力领域相关,有部分数据集源自某电网电力系统的电力调度产生数据。该数据集包括测试集、训
17、练集。其中测试集包括句子 2590个,字 97780 个;训练集包括句子 31590 个,字1467550 个。在进行电力关系分类时,从电力领域专业词典中获取实体,通过百度百科进行相关电力信息、词汇的爬取,并将重复信息去除,从而将出现频率最高并与实际电力领域相符合的测试集、训练集实体数量选取出来,见表 4。表 5 为电力系统实体关系分类,表 6 为测试集、训练集各实体关系数量。表4训练集及测试集各实体类别数量实体类别训练集数量测试集数量发电厂1007104发电站2233235变压器5579467机组89597母线8527821变电站864102供电设备6428584表5电力实体关系分类序号12
18、34关系分类属性父类子类属于序号5678关系分类区别功能发明未知表6训练集及测试集各实体关系数量实体类别属性父类子类属于训练集数量16774798554389测试及数量12458114256实体类别区别功能发明未知训练集数量47937764473287测试及数量3421666205 4.3抽取模型的验证通过部分电力调度数据以及网络建立训练集与数据集。本次所建的训练集包含 48200 个句子,共 2368700 个字;测试集包含 3600 个句子,118700 个字。评价指标为精确率、召回率以及F1值 3 大类,训练参数设置如表 7 所示。2 种抽取的测试结果如表 8 和表 9 所示,为表明所选
19、模型的优势,在表格中加入了其他几种神经网络模型训练的结果作对比。表7实体抽取与关系抽取训练参数训练参数实体抽取(LTSM+CRF)关系抽取(PCNN)词向量维度句子最大长度迭代次数隐藏节点每次训练样本数学习率卷积核数丢失率10010070201000.00210080150500.0012100.4582应用科技第50卷表 8实体抽取的测试结果%模型名称精确率召回率F1值CRF55.4652.4354.68RNN63.7360.4361.42LSTM74.9864.0367.25LSTM+CRF85.0471.0376.58表 9关系抽取的测试结果%模型名称精确率召回率F1值CRF55.465
20、2.4354.68RNN63.7360.4361.42LSTM74.9864.0367.25LSTM+CRF85.0471.0376.58从表 8 和表 9 中可以看出,LSTM+CRF 模型与 PCNN 模型在测试结果上明显高于其他神经网络模型,同时也证明本文选择这 2 种神经网络模型的正确性。4.4搜索功能测试以 20192020 年某变电站的供电数据为基础,数据中包含该站所有设备信息、运行信息等结构类数据,各种工作报表等半结构数据以及缺陷故障分析报告等非结构数据。经过知识提取并存储在图数据库后,形成知识图谱。在原有电力监控系统的基础上,增加了智能检索问答以及故障预警及诊断的功能。智能检索
21、问答包括标准检索与实体案例 2 个方面,测试结果如图 7 所示。在检索框中输入“变压器接地电阻大于 10”,在后台的数据库中会按照关键词“变压器”、“接地电阻”来进行搜索,最终搜索结果包含国家关于接地电阻的标准以及实际故障的案例,有针对性地给从业人员提供建议。图7智能检索测试界面 5结论1)通过对实体抽取的结果进行对比可以发现,采用单一神经网络模型抽取的效果没有采用复合神经网络模型的效率高。2)采 用 LSTM+CRF 模 型 进 行 实 体 抽 取,PCNN 模型进行关系抽取能够取得较好的效果。3)通过浏览器实现了电力知识的查询,提高了工作人员的效率。知识抽取的方法还有很多,并且由于受实际条
22、件限制,本次研究使用的训练样本规模也较小。以后可向这 2 个方向进一步提高知识抽取的效率。参考文献:刘峤,李杨,段宏,等.知识图谱构建技术综述 J.计算机研究与发展,2016,53(3):582600.1蒲天骄,乔骥,韩笑,等.人工智能技术在电力设备运维检修中的研究及应用 J.高电压技术,2020,46(2):369383.2郭蕴颖.基于知识图谱的电网信息搜索引擎的设计与实现 D.北京:中国科学院大学(中国科学院沈阳计算技术研究所),2020.3吕诗宁,张毅,胡若云,等.融合神经网络与电力领域知识的智能客服对话系统研究 J.浙江电力,2020,39(8):7682.4宋厚岩,王汉军.基于 GR
23、U 和 PCNN 的电力知识抽取 J.计算机系统应用,2021,30(9):200205.5郭盛,黄京明,经迪春.知识图谱在智能运维中的应用研究 J.能源科技,2020,18(11):7883,96.6王力,韩红旗,高雄,等.关系数据库向 Neo4j 图数据库转化的应用研究:以工程科技词系统为例 J.中国科技资源导刊,2021,53(5):5565.7索朗次仁.基于 Neo4j 的格萨尔王传人物关系图数据库的设计与实现 J.信息与电脑(理论版),2021,33(17):146149.8曾伟桂.基于 Neo4j 的化工安全知识图谱构建研究 J.黑龙江科学,2021,12(16):1719.9鄂海
24、红,韩鹏昊,宋美娜.关系型数据库向图数据库的转换方法 J.计算机科学,2021,48(10):140144.10马义松,武志刚.基于 Neo4j 的电力大数据建模及分析 J.电工电能新技术,2016,35(2):2430.11吕旭明,郑善奇,曹丽娜,等.图数据库技术在电力系统信息通信资产管理中的应用 J.东北电力技术,2017,38(11):2730.12姚艳玲,袁锋,王宁.基于知识图谱的国际协同计算领域可视化分析 J.计算机工程与应用,2017,53(7):3040,53.13王福贺,海威,张越,等.电网线路故障处置智能调度机器人研究及应用 J.电气自动化,2021,43(3):13,23.14姬源,谢冬,周思明,等.电力领域语义搜索系统的构建方法 J.计算机系统应用,2016,25(4):9196.15本文引用格式:李世明.电力系统知识图谱的研究 J.应用科技,2023,50(4):7983.LIShiming.ResearchofpowersystemknowledgeatlasJ.Appliedscienceandtechnology,2023,50(4):7983.第4期李世明:电力系统知识图谱的研究83