1、 ,研究与设计微型电脑应用 年第 卷第期作者简介:周俊宇(),男,硕士,高级工程师,研究方向为电力系统调度运行;花洁(),男,本科,工程师,研究方向为电力系统调度运行;骆国铭(),男,硕士,高级工程师,研究方向为电力系统调度运行。文章编号:()一种电网领域数据的知识图谱搜索引擎构建周俊宇,花洁,骆国铭(广东电网有限责任公司佛山供电局,广东,佛山 )摘要:目前电网企业会产生海量且繁杂的数据资源,其利用率较低,无法体现价值。针对这一问题,文章提出一种电网领域的知识图谱数据搜索引擎构建思路,从知识图谱构建、设计和操作实现进行了详细分析,并设计了基于 算法的搜索引擎系统。以江西省某电网企业大数据为研究
2、对象,从查准率和召回率两方面验证了该算法的优越性。研究发现:基于 知识谱图算法的搜索引擎其查准率稳定在 范围,召回率在 ;而采用常规关键词搜索算法的查准率在 ,召回率在。综合来看,基于电网领域数据的知识图谱方法搜索结果更加合理,准确率和召回率更稳定,搜索性能得到有效提升。关键词:电网;领域数据;知识图谱;搜索中图分类号:文献标志码:,(,):,:;引言现有文献资料表明,传统的电网信息搜索方式在面对较为复杂的电力系统时,很难满足语义搜索需求,导致电网信息搜索效率低下。大数据时代知识图谱作为一种新兴的人工智能技术已经在许多行业得到了广泛应用,为人类提供了更为直观、有效的数据处理方式,能够提高智能运
3、算中的组织、管理和认知能力。为此,国内相关研究者提出电力领域知识图谱技术,其目的是利用知识图谱去解决电网中更为复杂的因果网络,将电力领域信息进一步需求细化、闭合,从而形成一个在电力领域的特定应用需求。为了从实践和原理上进一步聚焦电网领域知识图谱技术的搜索能力,本文在总结和分析电网特点和知识图谱搜索技术的基础上,利用知识融合构建知识图谱,开展了相似类搜索和分类搜索研究,希望为类似项目提供实践参考。知识图谱原理大规模互联网信息使得现阶段内容呈现爆炸式增长,如何在多元化、异质化、松散结构的数据库中实现精确的搜索技术是目前信息收集和分析领域的重点研究方向。知识图谱技术是近年来由谷歌公司所提出的一种具备
4、大规模语义处理和开放组织能力的语言识别技术,为智能互联网及其工业应用奠定了基础。相较于传统的 图,知识图谱最典型的区别在于能够描绘实体与实体之间的模糊关系,然后组成一类巨大的语义网络。知识图谱包含以下重要节点。()实体:泛指一类可以区别于其他事物的、能够独立存在的事物,比如动物、植物、城市等。()语义类:表示一类可以构成同类型特征的实体集合,比如国家、汽车、狗等。()内容:一般作为对实体和语义类的补充、描述和定 ,研究与设计微型电脑应用 年第 卷第期义等,比如可以用文本、音像等来进行解释。()关系:一种函数表达式,用于将个图节点进行映射从而得到布尔函数。知识图谱的构建需要明确知识本身的逻辑结构
5、以及该知识图谱采用的体系架构。逻辑结构利用模式层和数据层来表达,模式层是数据结构的关键。体系架构见图,其虚线框内通过接受外部的结构化数据、半结构化数据和非结构化数据,经整合后形成知识表示,然后经过知识提取和本体构建等一系列框架设计后形成新的知识推理过程,最后封装成知识图谱并应用于客户服务。图知识图谱框架结构系统核心技术 知识图谱构建本文的电网知识图谱构建基于 数据库,在充分分析电网数据特征的基础上设计电网数据库中的实体、属性、关系和映射。然后以 语言为基础,通过提取原有数据库中的存储设备信息,进行 转换后形成特定的知识图谱数据并存入 数据库。最后,在图谱数据库中生成离散数据点集合,并将不同数据
6、实体之间的映射关系导入到图谱数据,进行离散数据之间的聚合和关系构建,最终经过不断调试后形成电网信息知识图谱,其具体流程见图。图知识图谱构建流程 知识图谱设计知识图谱设计是整个搜索引擎构建的核心组成部分。本文采用 算法,其元组模型公式如下:,()式中,表示知识图谱数据集合,表示实体数据,表示关系数据集,表示语义和内容数据集。如图所示,首先收集电网行业现行技术规范标准、电网企业设备使用手册、电网设备维护维修记录、电网运行数据记录、电网人员构成专业分工、电网工作工程以及组织机构信息等,利用 将数据抽取并封装。封装完成后经过数据清洗、实体识别、实体歧视和实体关联四个方法实现电网知识的获取,将其进一步封
7、装形成知识图谱数据库。其中,知识图谱数据库采用 语言实现知识查询、访问和管理;通过 实现用户的语义搜索和分析。图电网知识图谱设计流程电网数据由于大多为设备检修信息、设备运维信息、物质进出清单等结构化数据,其数据类型较为适合利用结构化数据进行表达。本文通过大规模并行处理(简称)实现多个服务器的节点计算并汇总,并转化为统一的实体形式。其中结构化数据的提取首先进行类的定义,然后进行属性定义,类的定义基于父类和子类之间的层次来归类,属性定义是进行数据和对象类型的关联,其结构化数据的类定义算法如下:类定义示例 :“升压变压器”:“变压器”:“变压器”:“变电站设备”:对于时序类的规则数据,一般是半结构化
8、电网信息,本 ,研究与设计微型电脑应用 年第 卷第期文采用 技术进行处理,电网中例如电压、电流、频率的波动本文进行的处理算法如下:半结构化数据描述示例 :“设备”:“时间”:“最大值”:“方差”:“频率”:在电网中还存在一类非结构化的数据,本文以文本的形式进行处 理,例 如 采 用 连 续 词 袋 模 型 进 行 抽 取 后 倒 入 到 中,然后采用 语言模型进行量化过滤,主要分为五层演化模型,其具体构造过程如下:图非结构化数据处理流程 知识图谱操作实现首先在服务器上部署 特征数据库,以环境变量为基础进行 验证,待数据库部署并正确配置后,使用 命令执行 策略,安装完成后便可以打开数据库操作界面
9、(图)。数据库操作界面可以通过浏览器输入 :命令进行开启,其存储形态包括三个部分,并可将电网数据进行可视化展示。图可视化界面数据库编程平台建模完成后,利用 导入 所收集的电网信息数据,通过 编写环境平台实现数据库与代码的链接。完成的 编程代码可以将原始数据库中的信息进行提取,然后将其通过 语言信息编码后倒入 数据库中。其中,关系表的数据、节点数据和实体数据的操作关键代码如下:,);(“”,);(“”,);(“”,);(“”,);(“”,);(“”,“”,“”,“”,“”,);(,);搜索引擎实现为了实现系统的简化,便于开发和维护,本文所搭建的搜索引擎采用浏览器、服务器模式(模式),实现过程中以
10、 浏览器界面实现对数据库的信息交换,如图所示。该架构分为浏览器、服务器和数据库三层,当用户输入电网搜索信息后经过后台算法处理实现信息的匹配和分析,并经过原路返回至浏览器供用户进行查看该信息。图三层架构流程图对于语义搜索,应先进行语义分析,然后将其映射至知识图谱的实体中,然后依托于知识图谱内的结构返回搜索结果。其中,搜索引擎采用与 算法相近的执行策略,当系统接受到映射请求时,首先进行基础的语义搜索和分类,然后将语义结果权重进行排序,选择权重最大、映射最近的结果进行计算,具体实现步骤如下:()基 于 模 糊 识 别 模 型对搜索结果选择合适的配 网实体。()计算配网实体中的信息与知识图谱中信息的相
11、识度,采用公式如下:(,)()()其中,()表示两种信息之间的相识度,、分别表示实体 ,研究与设计微型电脑应用 年第 卷第期内的向量,表示向量的维度。()将与实体关联的向量权重进行计算,权重越高表示可能的搜索结果越准确,其具体计算公式如下:(,)()式中,表示实体中的权重值,表示所提取的实体向量集合,表示不同实体之间的相似度距离。项目后端通过关键字的输入操作,用户首先根据下拉菜单选择可选字段,然后进行关键词匹配和图谱搜索,系统将在最短时间内实现匹配关键节点名字、所属区域电网信息和电力运行状况,并选择将关联度大于的节点反馈至用户,前端获取数据后跳转页面并将关键信息渲染后展示至运行界面,从而完成搜
12、索过程。图基于知识图谱的搜索引擎界面实例分析 试验对象基本情况以江西省某电网公司 年内运营数据为研究实例,通过收集该公司近年的用电数据、人力资源数据、设备运行和维护数据以及电网工作相关数据等,总的数据体量为 。构建知识图谱过程中,将结构化数据作为搜索索引,将半结构化数据进行时间字段提取并建立索引指标,将非结构化数据以语义进行分类。然后采用上文的构建过程进行开发并建立知识图谱数据库,实现了不同信息之间的关联。搜索效果分析采用查询率和召回率作为本文的搜索算法合理性的评判标准。其中查询率是比较本系统搜索结果与正确结果的百分比值;召回率表示正确的搜索结果与实际正确结果的比值。两种百分值越高,表示该搜索
13、算法的准确率越好,作为对比本文选择传统的关键词搜索算法所回测的结果曲线进行对比,如图、图所示。从图可以看出,使用知识图谱搜索算法的结果查准率稳定在 之间,而采用关键词搜索算法的查准率波动较大,约在 之间,整体上采用前者算法其稳定性较好,采用后者查准率容易出现波动。从图可以看出,当使用知识图谱搜索算法的召回率约在 之间,而采用关键词搜索容易召回率最高为,最低为;这一规律说明关键词算法在一些特定数据检索中容易产生误判,其算法合理性有待改进。综合来说,采用基于电网领域数据的知识图谱算法更加智能,其搜索准确率更为稳定。图查询准确率分析曲线图查询召回率分析曲线总结能源互联网时代数据的重要性不言而喻,为提
14、高电网企业的数据资源利用效率和价值,本文提出一种电网领域数据的资源搜索方法,将电网企业中的结构化数据和非结构化数据进行合理抽取,建立相应的知识图谱,提高了搜索结果稳定性和准确率。结论如下:()基于知识图谱算法的查准率稳定在 之间,采用关键词搜索算法的查准率约在 之间,知识图谱搜索算法的召回率约在 之间,而采用关键词搜索容易召回率最高为,最低为;()关键词算法在一些特定数据检索中容易产生误判,其算法合理性有待改进,基于电网领域数据的知识图谱算法更加智能,其搜索准确率更为稳定。参考文献胡志磊,靳小龙,陈剑赟,等事件图谱的构建、推理与应用 大数据,():张云中,祝蕊面向知识问答系统的图情学术领域知识图谱构建:多 源 数 据 整 合 视 角 情 报 科 学,():杜会芳,王昊奋,史英慧,等知识图谱多跳问答推理研究进展、挑战与展望 大数据,():冯东豪 支持快速在线分析的电网实时数据建模技术广州:华南理工大学,吴秋莉,郭丽娟,吕泽承,等 智能电网海量数据实时搜索技术研究 电力信息与通信技术,():安思成交互式配电网智能控制系统及其关键技术研究 北京:华北电力大学,丁杰,朱力鹏,胡斌,等面向多级调度管理的融合型搜索引擎 电力系统自动化,():(收稿日期:)