收藏 分销(赏)

基于改进型B%2B树的电力多模态数据索引系统研究.pdf

上传人:自信****多点 文档编号:2995497 上传时间:2024-06-12 格式:PDF 页数:6 大小:1.43MB
下载 相关 举报
基于改进型B%2B树的电力多模态数据索引系统研究.pdf_第1页
第1页 / 共6页
基于改进型B%2B树的电力多模态数据索引系统研究.pdf_第2页
第2页 / 共6页
基于改进型B%2B树的电力多模态数据索引系统研究.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 11 月第 19 卷 第 4 期系统仿真技术System Simulation TechnologyNov.,2023Vol.19,No.4基于改进型B+树的电力多模态数据索引系统研究张才俊,江帆*,张波(国家电网有限公司 客户服务中心,天津 300309)摘要:电力系统数据在指数级增长的同时也逐渐呈现出多模态特性,这使得传统索引方法不能满足电力业务对异构数据进行快速内容检索与协同管理的需求。因此,本研究在传统B+树索引的基础上,加入倒排索引,并针对电力多模态数据设计了双层混合索引结构。该结构对数据属性和属性值分别建立索引,并依据数据属性的不同类型构建不同的索引结构。双层混合索引

2、能够避免传统单一B+树的不足,在降低时间和空间开销的同时更好地满足了电力业务需求,从而为电力系统智能化分析与应用提供有效支撑。关键词:多模态数据;B+树索引;倒排索引;双层混合索引Research on Power Multimodal Data Index System Based on Improved B+TreeZHANG Caijun,JIANG Fan*,ZHANG Bo(Customer Service Center of State Grid Co.,Ltd.,Tianjin 300309,China)Abstract:The exponential growth of pow

3、er data gradually presents multimodal characteristic,which makes traditional indexing methods unable to meet the needs of content retrieval and collaborative management of data with different structure in power business.Therefore,based on the traditional B+tree index,the inverted index is introduced

4、,and the double-layer hybrid index structure is designed for multimodal data of electric power.The structure builds indexes for data attributes and attribute values respectively,and builds different index structures according to the type of data attributes.The double-layer hybrid index can avoid the

5、 shortcomings of the traditional single B+tree,and meet the needs of power business better while reducing the time and space expense,thereby providing effective support for intelligent analysis and application of the power system.Key words:multimodal data;B+tree index;inverted index;double-layer hyb

6、rid index随着电力行业朝着信息化、数字化、智能化方向发展,以及电力系统不断与物联网、云计算和大数据等信息系统进行深度融合,电力系统数据在呈现出指数级增长趋势的同时,也在朝着多元化和复杂化的方向发展,从其数据类型分布和信息表现形式来看,逐渐体现出多模态特性1。为了满足数据业务功能,各数据库除了将数据直接存储外,还需为各类数据建立文件内容索引,即根据指定信息定位匹配相关内容2。目前内容索引建立方法主要依据关系数据库普遍采用B+树索引结构3,该索引在处理中小型数量级且结构简单的文件时效率较高。然而,随着电力大数据的发展,以文本、图像、音频等为内容形式的多模态电力业务数据呈爆炸式增长,依据普通

7、B+树建立的索引结构由于自身节点分裂频繁和索引易失效的缺点就无法实现数资助项目:国网客服中心2020年网上国网服务后台设计开发实施项目(71993118000D)通信作者:江帆,E-mail:中图分类号:TM41 文献标志码:A DOI:10.16812/31-1945.2023.04.001张才俊,等:基于改进型B+树的电力多模态数据索引系统研究据高效处理4。针对B+树索引结构的局限性,本研究综合基础索引提出一种适用于电力多模态大数据的混合索引结构。1 B+树索引结构及改进 1.1B+树索引结构面对大数据量的存储,为了有效降低树的深度、提高查询效率,在平衡二叉树基础上发展出来的B树索引被提出

8、,其一个节点可存储多个关键字,这样在相同数据量级下,磁盘访问次数也伴随着树高的降低而减少,时空开销速度得到了降低5。B+树与B树的不同点在于,B+树改善了其叶子节点和非叶子节点的逻辑结构,使内部节点主要存储记录名称、索引指针,把所有的关键字都存储在叶子节点上,使得相同节点能够存储更多的信息,从而进一步降低磁盘访问次数6。一个m阶B+树具有如下特性:(1)B+树与B树不同,B+树节点分为叶子节点和内部节点,其中内部节点不存储数据,只保存索引结构,所有关键字的值都保存在叶子节点中;(2)B+树中每个内部节点至多含有m棵子树和m1个关键字;(3)除根节点外的所有内部节点至少有m/2棵子树和m/21个

9、关键字;(4)B+树中根节点至少有一个元素;(5)B+树中有头部指针指向第一个叶子节点,之后每一个叶子节点都指向下一个叶子节点,因此叶子节点中关键字的大小从左到右成为了一条顺序链表。B+树独特的结构使其适合用来对关系型数据库建立索引。然而,在对来源广泛、种类繁多、规模庞大的电力多模态数据建立索引时,B+树存在2个问题:(1)电力多模态数据总体可分为数值型数据和字符型数据,当B+树对字符型数据建立索引时,非叶子节点分裂较为频繁,使得树的高度增加,带来索引空间和时间的较大开销;(2)B+树自身顺序匹配的特点会在进行全文内容检索时带来索引失效的问题。因此,需要对传统索引结构进行改进。1.2索引结构改

10、进每一种模态具有一种信息形式,具有多种信息形式的电力多模态大数据主要来自数据采集与监视控制系统、能量管理系统、配电管理系统、市场运行系统等,这些系统以不同的方式汇集到电力业务中台,作为电力系统智能化分析的数据基础7。为了支撑电力系统中的多模态数据业务,需要针对不同类型的数据建立高效索引,并同时满足多样化数据检索的需求。倒排索引是用于全文内容检索的一种索引方法,该索引的结构主要采取“内容-文档”形式,记录某项内容在文档中出现的情况,以及某一文档中存在的不同内容项。倒排索引对内容和内容在文档中的位置进行了映射,主要由“内容词典”和“倒排列表”组成8。其中文档包含的对象有很多,涵盖以结构化、半结构化

11、、非结构化数据为内容形式的各种文件。从倒排索引的结构来看,其能够为不同类型的电力数据建立索引,在处理字符型数据时不会带来较大的时间和空间开销;从倒排索引的功能来看,虽然能够在进行全文内容索引过程中避免索引失效的问题,但无法满足电力业务中对于数值型数据按数值范围进行检索的需求。从电力系统中采集到的多模态数据通过文本、图像、音频等形式展现,单一的索引结构无法在保证性能和功能的情况下实现数据的索引建立和内容检索,因此,本研究综合考虑B+树索引和倒排索引特点,以B+树索引结构为基础提出一种可以用于处理电力多模态数据的双层混合索引。混合索引的第一层采用传统的B+树结构。假设现有电力系统某段输电线路关于微

12、小金具缺陷监测的文档,通过解析这些文档,可以确定文档内容包含如缺陷发现时间、缺陷数量的数值型数据,也有如缺陷类型、缺陷严重程度、缺陷发生地点等字符型数据,还有如缺陷采集照片的图像数据。数据的属性列表如表1所示。为表1文档数据建立混合索引的第一层B+树结构如图1所示,其中节点内容按属性标记的字母顺序进行排序。混合索引的第二层根据第一层叶子节点的数据属性来构建索引。如果第一层叶子节点的属性是数值型,第二层就针对这一类型的数据建立B+树索引;如果属性为其他类型,第二层就对这一类型的数据建立倒排索引,其中图像、音频等数据可经过处理转换为字符型数据。如图2所示为对输电线路监测数据加上第二层索引之后的混合

13、索引结构。表1输电线路微小金具缺陷数据的属性列表Tab.1The attribute list of data from micro hardware defecting in transmission line属性名缺陷采集照片缺陷发现时间缺陷类型缺陷数量缺陷严重程度缺陷类型属性标记dePicdeTimedeTypedeCountdeLeveldeType属性类型图像数值型字符型数值型字符型字符型图1混合索引的第一层结构Fig.1The first layer structure of the hybrid index303系统仿真技术第 19 卷 第 4 期图2中索引结构的第二层列举了具体

14、属性所对应的属性值混合索引的具体组成,其中B+Tree Index和Inverted Index分别表示第二层为B+索引和倒排索引,File表示包含该数据所在文件的文件名称,Freq表示该数据在File中出现的频数,Loc表示包含该数据所在文件的存储位置。在为字符型数据建立索引时,混合索引方法能够将文档内容以“内容-文档”的形式连续存储在倒排索引结构中,而不会出现长字符串无法保存在B+树非叶子节点中导致的节点频繁分裂问题。此外,倒排索引结构能够在对文档进行分词的过程中维护“内容词典”和“倒排列表”快速进行内容匹配,不会出现使用B+树进行全文内容检索时的索引失效问题。2 电力多模态数据索引构建

15、2.1电力多模态数据索引构建方法针对电力多模态数据创建混合索引的步骤如下。步骤1:分析从不同电力业务子系统采集到的数据文档,解析文档内容。对于某一文档内容,首先判断其属性类型,并且将其属性插入到第一层 B+树结构中,然后执行步骤2。步骤2:根据步骤1中内容属性为其属性值建立相对应的第二层索引结构。如果其属性是数值型就建立B+树索引;如果其属性是字符型、图像或音频就建立倒排索引。完成后继续执行步骤3。步骤3:若文档中所有内容均按属性和属性值的方式存在于索引结构中,索引创建完成;否则重复执行步骤1,判断文档内容属性,如果在第一层的B+树中已经存在这一属性,则只需在对应的第二层中添加该属性值;如果在

16、第一层的B+树中不存在这一属性,则先在第一层的B+树中添加新的属性节点,然后根据属性类型来创建第二层的索引结构。双层混合索引创建算法如算法1所示。2.2电力多模态数据检索方法双层混合索引下电力多模态数据的检索算法如下。步骤1:首先分析电力业务,明确需要检索的电力数据内容,然后执行步骤2。步骤2:确定要检索内容的属性。如果第一层属性B+树索引中没有该属性,那么需要检索的内容不在算法1 双层混合索引创建算法输入 电力多模态数据输出 双层混合索引Begin1.获取文件数据集fileSet2.初始化索引结构3.for file in fileSet do/遍历文件数据集4.for content in

17、 file do/遍历数据文件内容5.if on First Layer Index(content.key)=true then/判断内容属性是否存在于第一层B+树索引中6.在第一层B+树索引中新增属性节点7.if type(content.value)=number then/判断内容属性类型是否为数值型8.插入属性值到第二层对应的B+树索引9.else10.插入属性值到第二层对应的倒排索引11.else12.if type(content.value)=number then13.插入属性值到第二层对应的B+树索引14.else15.插入属性值到第二层对应的倒排索引16.end for1

18、7.end for18.返回双层混合索引End图2双层混合索引结构图Fig.2The structure of double-layer hybrid index304张才俊,等:基于改进型B+树的电力多模态数据索引系统研究该混合索引中,检索失败;否则执行步骤3。步骤3:根据第一层属性B+树叶子节点对应的指针地址找到第二层中所对应不同索引的存储位置,并在第二层根据索引结构进行业务内容检索与匹配。3 多模态数据索引在电力系统中的应用 3.1系统应用框架如图3所示,在电力系统运行过程中,电力数据中台需要接入不同来源、不同类型的数据,为了便于数据解析,可将接入数据总体分为3种,即用于格式化描述的结构

19、化数据,包括xlsx、xls格式的Excel文件等;用于进行信息传递的半结构化数据,包括xml文件、json文件等;用于灵活描述事物状况的非结构化数据,包括pdf文件、docx和doc格式的Word文件及图像、音频等媒体形式的文件。这些数据是对电力系统运行情况的具体反映,也同时构成了具有多模态特性的电力大数据。电力多模态数据接入电力数据中台后,通过不断与上层进行数据交互支撑电力系统智能化分析与应用,为了能够及时检索并获取关键内容,高效进行异构数据协同管理,需要为各类数据建立有效索引9。根据本研究所提出的方法,在创建索引之前,首先将每个文件中的内容解析为的形式,然后为每一属性建立上层B+树索引,

20、最后在区分属性类型后分别为属性值建立下层的B+树索引或倒排索引。索引建立后可依据不同的检索内容快速进行内容匹配。3.2数据预处理在电力系统的多模态数据中,非结构化数据相对于结构化数据、半结构化数据具有一定的特殊性,其不能以固定的规则进行内容解析,因此在进行索引创建前,针对电力系统中高频出现的图像和音频类非结构化数据设计了预处理方法。对于图像这类非结构化数据,本研究使用颜色和边 缘 方 向 性 描 述 算 法(Color and edge directivity descriptor,CEDD),通过分析图像的颜色和纹理提取的特征信息,根据特征编码与字符型数据同样的方式建立倒排索引,以此支持基于

21、内容的图像检索。对于音频类文件,首先需要将音频内容解析为频谱图,然后与为图像数据建立索引的方式相同,为音频文件频谱图建立倒排索引。本研究采用Python脚本解析音频文件,在使用Librosa音频处理库处理解析音频文件后,通过Matplotlib模块绘制并保存频谱图。解析得到的音频文件频谱图示例如图4所示。图3多模态数据索引系统应用框架图Fig.3Application framework of multimodal data index system图4音频文件频谱图示例Fig.4The example of the audio file spectrogram305系统仿真技术第 19 卷

22、第 4 期3.3系统运行结果基于改进型 B+树的电力多模态数据索引系统能够按照数据类型为多模态数据建立双层混合索引,并且也可根据电力业务需求基于创建好的双层混合索引进行内容检索。系统运行过程及结果如下。(1)索引创建。当首次运行索引系统或数据索引需要全面更新时,系统能够在较短时间内完成索引创建或更新。索引创建结果如图5所示。(2)内容检索。以检索输电线路微小金具缺陷相关内容为例,为了构建输电线路螺栓检测模型,需要通过索引获取输电线路螺栓信息记录。在系统查询模块输入相应内容后,系统能够即时检索出包含螺栓内容的各类文件,以及内容在文件中出现的位置、文件存储地址等信息。内容检索结果如图6所示。与索引

23、创建过程不同,用户查询数据操作频繁,且所用时间较短,因此无需对用户显示检索时间。此外,不同的查询需求所需检索时间不同,单次查询无法准确体现检索性能。电力数据双层混合索引的检索时间及性能比较在下节中进行详细说明。4 多模态数据索引性能分析 不同模态下数据的存取方式和存储结构不同,因此在同一索引结构下,即使电力多模态数据文件个数或数据所占空间相同,也可能由于处理方式不同,带来索引创建效率和数据检索效率的差异。为了体现所提双层混合索引应用于电力多模态数据的优势,选取与电力系统有关的多种类型数据作为实验数据集,并在相同数据集上分别构建普通B+树索引和基于改进型B+树的双层混合索引,进行索引创建性能和数

24、据检索性能的比较。本研究以电力系统中输变电数据采集与监控业务为对象,实验数据集包括无人机输电线路巡检图像、变电设备异常声响及运维检修报告、故障状态记录等数据文档。根据电力系统实际业务情况确定的用于索引创建和数据检索的实验数据具体组成如表2所示。对实验数据集创建不同索引后,考虑到单次数据检索的时间误差及不同类型数据检索可能存在的差异,实验在已有索引结构的基础上分别计算了字符型数据的平均检索时间和数值型数据的平均检索时间。对比实验具体结果如表3所示。通过表3可以看出,在实验数据集上创建数据索引时,本研究所提双层混合索引花费的时间明显少于普通B+树索引,这是因为普通B+树中频繁的节点分图5索引创建结

25、果Fig.5The result of creating index图6内容检索结果Fig.6The result of retrieving content表2实验数据样本分布Tab.2Sample distribution of the experimental data文件格式jpgwavdocdocxxlsxlsxpdftxtxmlhtml文件个数120466547696总文件大小11.8 MB 134 MB4.39 MB7.53 MB 335 kB9.15 MB4.29 MB20.6 kB23.1 kB16.8 kB表3不同索引结构性能对比Tab.3Performance compa

26、rison of different index structures索引类型普通B+树索引双层混合索引索引创建时间/s17396数值型数据平均检索时间/ms2728字符型数据平均检索时间/ms14452306张才俊,等:基于改进型B+树的电力多模态数据索引系统研究裂带来过大的时间消耗;在数据检索方面,倒排索引将压缩后的数据前缀字典缓存在内存中,检索数据时能够通过查找数据字典快速定位外存位置,而无需像普通B+树一样频繁地读取磁盘,将分裂后的字符型数据节点多次调入内存进行内容查询,从而表现出整体检索效率的提高。5 结 论 本研究构建的基于B+树的双层混合索引结构,能够完成电力业务中异构数据的高效

27、检索和协同管理,为上层电力数据智能化分析与综合业务应用提供支撑。考虑到电力系统数字化转型和新型电力系统建设的迫切需求,未来仍需要在索引规模化、智能化方向上进行深入研究。参考文献:1任泽裕,王振超,柯尊旺,等.多模态数据融合综述J.计算机工程与应用,2021,57(18):49-64.REN Zeyu,WANG Zhenchao,Ke Zunwang,el al.Survey of multimodal data fusion J.Computer Engineering and Applications,2021,57(18):49-64.2孙立擎.电力大数据检索方法研究 D.吉林:东北电力大

28、学,2016.SUN Liqing.Electric power data retrieval method research D.Jilin:Northeast Electric Power University,2016.3卢晨曦.面向大数据流的分布式B+树索引构建 D.杭州:浙江工业大学,2019.LU Chenxi.A distributed B+tree for big data stream D.Hangzhou:Zhejiang University of Technology,2019.4长孙妮妮,张毅坤,华灯鑫,等.一种基于B+树的混合索引结构 J.计算机工程,2012,38

29、(14):35-37,40.ZHANGSUN Nini,ZHANG Yikun,HUA Dengxin,et al.Hybrid index structure based on B+treeJ.Computer Engineering,2012,38(14):35-37,40.5THOMAS H,CHARLES E,RONALD.L,等.算法导论M.3版.北京:机械工业出版社,2013.THOMAS H,CHARLES E,RONALD.L,et al.Introduction to algorithmM.Third edition.Beijing:China Machine Press,2

30、013.6李双,古良铃,贺媛媛.从编程和性能看B树和B+树J.电脑编程技巧与维护,2020,10:47-49.LI Shuang,GU Liangling,HE Yuanyuan.B tree and B+tree in terms of programming and performanceJ.Computer Programming Skills&Maintenance,2020,10:47-49.7张世超,杨乘胜,朱海东,等.基于电力企业数据中心的数据资产管理体系研究 J.电力大数据,2022,25(1):51-58.ZHANG Shichao,YANG Chengsheng,ZHU H

31、aidong,et al.Research on data asset management system based on data center of electric power enterpriseJ.Power Systems and Big Data,2022,25(1):51-58.8李致远,冯琳.一种基于Lucene的高效索引建立方法J.工业控制计算机,2020,33(1):77-78.LI Zhiyuan,FENG Lin.An efficient index building method based on Lucene J.Industrial Control Compu

32、ter,2020,33(1):77-78.9尹蕊,余仰淇,王满意,等.大数据环境下的电力数据质量评价模型与治理体系研究 J.自动化技术与应用,2017,36(4):137-141.YIN Rui,YU Yangqi,WANG Manyi,et al.Research on power data quality evaluation model and management system in big data environmentJ.Techniques of Automation and Applications,2017,36(4):137-141.张才俊 男(1980-),河南安阳人,本科,高级工程师,主要研究方向为电力系统及其自动化。江 帆 男(1981-),江苏泗洪人,本科,高级工程师,主要研究方向为电力系统及其自动化。307

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服