基于云计算的电力大数据分析技术与应用_李琦.pdf

资源描述

1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering220在现代互联网技术快速发展的背景下，云计算系统在不断运行过程中非常重要的一个问题就是数据问题。因此，当云计算系统在对各项数据信息进行分析和处理之后，便可以充分利用固有的程序对相关性的数据进行操作。尤其是在互联网技术快速发展的过程中，数据处理方式以及工作效率方面的要求不断提升。现阶段，一些普通的数据处理器工作的方式及效率已经无法有效满足应用需求。因此，为了更好地解决这个问题，便需要开展云计算环境下的数据处理器技术，增强数据处理器的性能

2、，优化资源配置，这样便能够更好地满足大数据在处理方式和性能方面的要求。1 电力大数据及其特征所谓的电力大数据，也便是指智能电网运行时，各环节产生的数据信息，包括发电、输电、配电、营销以及管理等。而针对以上数据的收集，通常是通过在设备商部署大量传感器的方式，利用传感器将搜集到的客户数据反馈到数据中心，再由数据进行统一的存储与管理1。此后，通过对客户数据信息的分析处理，便可为智能电网高效、稳定地运行提供支撑。不仅如此，通过对电力数据的分析，还能为智能电网提升自身的精益化管理水平提供支撑。概括电力大数据的特征可以体现出 3V 特征，即体量大、类型多和速度快。1.1 体量大(Volume)在当前科技水

3、平快速发展的背景下，智能电网建设也得到了阶段性的发展。目前，大量类型不同的终端设备已经在智能电网各节点中得到部署，为相关数据的采集提供支撑。如某地区超 2200 万的用电户中，若全部安装了智能电表，依照国家电网的要求，每 15 分钟采集 1 条用电信息，仅该地区每天便会新增 21 亿的用电记录。将之扩散到全国，其规模可想而知。1.2 类型多(Variety)电力大数据的构成部分除了有传统的生产、营销等机构化述职之外，还存在很多非结构化以及半结构的数据内容。因为多元化的数据类型，所以也需要多样化的发展数据处理技术与存储技术。由于本文是以用电信息采集处理系统为讨论对象，故下文将围绕结构化数据展开，

4、1.3 速度快(Velocity)在用电信息数据的采集和处理中，电力大数据有着极快的速度，由于终端设备的大量增加，因此储存系统在数据存取方面需要能够实现数十万次以上的需求。同时，电力大数据所表现出的特点还包括 3 个特点：（1）数据即能量。在整个电力大数据信息中会涉及到最佳输电调度策略和用户用电规律等信息，而这些信息对保证电力系统正常运行和降低能耗具有非常重要基于云计算的电力大数据分析技术与应用李琦（厦门亿力吉奥信息科技有限公司福建省厦门市 361000）摘要：本文通过深入探究基于云计算的电力大数据分析技术应用研究，为强化电力大数据分析技术应用水平提供参考。在现代计算机技术应用范围不断扩大的

5、背景下，计算机被应用到了各个行业中，为各个行业朝着智能化和网络化的方向发展奠定了坚实的基础。尤其是在云计算出现之后，电力大数据分析技术逐步被应用到电力企业的生产、加工环节中，这也为电力企业更好地服务于社会和人们创造了良好的保障性条件。为了最大限度提升电力信息的处理速度，切实增强整个电力系统的反应速率，便需要电力企业充分利用大数据技术对整个电力系统的数据进行分析。云计算技术作为先进的一种信息技术，有利于为电力企业更好地开展数据分析工作提供重要的技术支撑。关键词：云计算；电力大数据；电力系统；可视化技术数据库系统设计Database System Design电子技术与软件工程Electronic

6、 Technology&Software Engineering221的作用。同时，还能够保证电网的能耗降低，以此推动电力系统朝着可持续性的方向发展，以此凸显出数据即能量的特点2。（2）数据即交互。通过交互集合电力大数据与其他行业大数据，再进行深入分析和挖掘，可以更好的为政府相关部门判断经济态势与制定发展决策提供有效的参考。（3）数据即共情。电力大数据可以更好的帮助国网公司发现问题，从而更好地满足广大用户的需求，让整个国网公司在日常的各项业务工作过程中能够充分有效的利用电力大数据技术服务用户。2 云计算及其优势作为一种大型的分布式计算模式，云计算在数据计算以及存储方面有着非常优秀的表现，其特点

7、主要表现为高性能、高可用以及可伸缩。云计算还可以实现对大量分布资源和异构资源的聚合，从而为广大用户提供海量的数据资料，无论是在数据计算能力还是在数据存储能力方面的表现都非常优秀。凭借先进的动态资源调配与虚拟化技术，可以实现按照用户实际需求进行精准的云计算服务，从而有效的避免浪费系统资源，最大限度提升各项资源的利用效率和应用能力。同时，横向伸缩和动态负载的均衡也是云计算的一大特色，即对云计算技术支撑向数据中心进行利用，以此增加新节点，这样便可以实现迁移部分负载至新增节点的目的，促使各个节点间的负载能够保持平衡的状态，从而有效的提高系统的可承载业务量。一般情况下，数据中心最重要的形式就是云计算环境

8、内的资源，一个数据中心就会涉及到成千上万的节点，而各个节点便能够借助互联网络来为广大用户提供数据计算服务资源存储服务。尤其是在现代云计算技术快速发展的背景下，逐步出现了各种成熟的技术和产品，并被广泛应用到了传统行业，如电信、零售和金融等行业的发展中。3 电力大数据分析技术3.1 数据分析技术在当前阶段的科技水平支持下，电力行业技术水平不断发展进步，特别是随着数据分析技术的普及应用，对于电力行业的发展起到了极其重要的作用。通过对电力大数据分析技术应用，能够实现对一般电能和新型清洁进行关联分析，从而找出两者之间的契合点，进而准确的实现对电力资源的合并。例如，在风电的并网过程中，往往会出现线损、谐波

9、等情况，这些情况会对并网工作产生不同程度的影响，用户的正常用电也可能因此受到影响。倘若在并网过程中科学合理的应用电力大数据分析技术，可以更好的分析并网影响因素，并有针对性地采取处理措施，确保并网的顺利进行。3.2 电力大数据的可视化技术电力大数据分析技术所具备的一项重要特征就是可视化技术，通过对这项技术的运用，能够让工作人员对数据信息中反映的问题进行快速的识别，从而更加科学合理地作出判断。当前，最常见的可视化技术形式分别为图标可视化和 SVG 可视化。图标可视化将数据信息以图形或表格的形式进行展示，能够让工作人员更加充分的了解问题所在，并根据数据的实际变化规律进行错数处理。在构建该系统时，会运

10、用到表格、柱状图、折线图等可视化展示方法3；SVG 可视化则是将电力数据以不同的颜色进行展示，帮助工作人员对数据信息实现更加直观的了解。例如，为了对各单位生产情况进行了解，可以将数据以不同的颜色进行显示，或是通过 SVG调用某个数据来进行快速查询和利用，提高数据资源的使用效率。3.3 混合存储技术倘若选用 Hive 系统进行数据储存，就需要运用重写方式来更新数据，该方式对于数据信息的及时更新难以保障。而要想保证数据信息的质量，就必须对数据信息进行及时的处理，这样才能充分对其进行利用。由于操作数据占有的比例非常小，如果选用传统的方式进行更新，很可能会导致数据资源占用度过高的现象，进而影响系统运行

11、的稳定性。而通过运用混合存储技术，则能够充分发挥出主附表的作用。通过实时更新相关数据信息，确保数据的处理工作能够满足系统要求。数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering2223.4 数据库索引技术数据库索引技术可以基于电力大数据的多维索引功能，以时间和单位为标准，利用不同的维度实现对电力大数据索引的辅助，用极短的时间寻找出有效的数据信息，大幅提高数据索引质量。在这一基础上，还可以通过该技术对电力大数据系统加以完善，如利用 Hive 命令来增强解析技术，实现代码的高效解析，从而使

12、得数据索引的维度区间更加丰富，提升数据信息的查询与利用效率。3.5 数据仓库技术近年来，电力行业生产能力提升巨大，因此其生产过程中产生的数据信息量也随之增加，从而出现了系统数据运算能力不足的情况。为了解决这种情况，需要利用先进的技术手段来开展数据分析工作。数据仓库技术作为组成电力大数据的重要内容，能够使数据的运算能力大幅提升，为电力数据信息的采集与处理提供有效的支持4。对于一部分不能直接分析的数据，就可以利用数据仓库转换该数据为可以分析的数据，之后在加载转化处理后的数据信息。结合数据仓库的过往应用经验可以看出，这项技术可以有效的提升电力大数据系统的运行性能，对于促进电力大数据的发展具有重要的意

13、义。3.6 分层次处理技术在进行电力大数据信息的分析处理过程中，还可以应用到分层数据处理技术来实现数据处理效率的提升。在当前智能电网快速发展的背景下，多功能一体化管理的智能电网管理系统已经逐渐得到普及，该体系主要由数据采集、数据存储以及数据利用等模块组成，只有基于对电力系统实际运行情况具有充分的了解，才能构建起一个较为完善的电力大数据分支管理系统，进而将不同电力供应系统各自的关联系与独立性体现出来，最终实现资源的共享5。除此以外，还需要提高对 SQL 技术的重视程度，利用该技术不仅能够对电力大数据信息进行同步的分析计算，使数据信息的分析效率和分析结果更加精准可靠，同时还能达到减少人工操作时间，

14、提高企业经济效益的目的。4 基于云计算的电力大数据分析系统设计大数据分析技术近年来开始逐步建立起了完整的参考架构和软件系统，并被广泛应用到了各个行业的发展中。该系统最早是由互联网行业所研发并应用，其各项功能特性都能够较好的呈现出各行各业在大数据背景下的业务需求。然而互联网以外的行业在应用这项技术的时候则需要对大数据的特征和业务需求进行全方位的分析，并统筹优化该系统运行过程中可能存在的局限性6。现阶段电力行业在应用大数据分析系统是，主要表现出以下几个区别：（1）在当前网络技术发展快速的背景下，大数据系统在扫描数据集时必须严格按照顺序进行，这样就会造成分布式大数据分析系统 Hive 或 Impal

15、a 在索引功能方面无法实现支持。特别是在现阶段的电力大数据分析中经常出现多维度查询。由于缺少索引，因此在访问系统时应用的数据信息量较少，进而导致查询性能的下降。（2）“一次写多次读”是目前互联网大数据所体现出来的一个显著特点。在对该项功能进行运用时，分布式文件系统（HDFS）及其配置单元对于现有数据无法实现覆盖（更新或删除）。在一些大型的数据公司内，通常有着大量供数据重写的相关质量。倘若是采用对现有数据进行覆盖的方式来执行请求，必然会影响实际的执行效率7。因此需要为现有的系统设计开发一项重写数据的机制。（3）根据自身业务需求，互联网企业设计开发的大型数据请求语言（如 HQL）为 SQL 子集，

16、在进行电子数据分析系统时通常采用标准 SQL 语言，要想将SQL 语句转换为等效 HQL 语句，需要运用到大量的时间成本与人力成本。因此，需要设计一个自动 SQL 到HQL 转换工具，以提高旧应用程序的迁移速度，从而达到平滑迁移电气数据分析行为的目的。此系统的开发基础为分布式并行计算框架（Hadoop），数据分析软件采用 Hive，开发以网格文件为基础的多维索引功能、能够满足数据更新要求的混合内存模型以及基于重写请求的 HQL 上的 SQL 机器翻译工具等技术，从而使得 Hive的易用性与性能得到整体上的提升。数据库系统设计Database System Design电子技术与软件工程Elec

17、tronic Technology&Software Engineering2234.1 电力大数据分析系统体系结构从收集到最终分析和计算的大型数据的能力必须包括多个单元，具体流程见图 1。采用大量的智能传感器对恒定频率进行定期的收集，之后再经由互联网将数据信息发送至数据中心。如果数据收集过程中出现错误或遗漏，将错误地执行有关能耗的补充信息。为了减轻访问云存储系统的压力，首先通过前端缓冲网络解码和预处理收集到的数据信息。除定期收集的数据源以外，还应将静态信息（如设备信息、人员信息）也纳入到存档数据库中，并将数据内容上传至云存储系统。在对存档数据库进行更新时，要确保该系统与云存储系统的同步更新，

18、从而使得计算结果的准确性有所保障、并行计算环境对存储系统进行访问，再根据业务逻辑完成复杂数据信息的计算分析工作，最后在云存储系统中写入最终计算结果。在线请求系统能够实现根据用户请求对云存储系统的快速检索，并返还于用户。最后由云存储系统将计算结果同步到关系数据库，使用户能够在关系数据库中查看相关的数据信息。图 1：电力大数据流转表 1 为电力大数据分析系统体系结构，构成模块如下：（1）分布式文件系统（HDFS）模块为本系统中的基础模块，主要功能为各种类型大数据信息的存储。组成 HDFS 的结构是由一个元数据服务器连接多个数据服务器的方式。文件分为多个数据块，并将数据库分别保存至不同的数据服务器中

19、。每个数据块的构成又分为 3个副本，分别在不同节点中进行保存。一旦出现副本无法进行访问或复制的情况，系统将立即进行自动复制并创建新的副本来实现负载平衡。表 1：基于云计算的电力大数据分析系统体系结构智能电网数据分析挖掘应用业务应用服务接口SQL 翻译工具监控工具运行调度工具索引管理工具HadoopHive查询引擎任务管理工具并行 ETL 工具开发工具集合前置数据缓冲队列（2）Hadoop 是一种由 Google 公司设计的 Map-Reduce 并行编程框架。该框架分为由一个 map 函数于一个 reduce 函数组成。MAP 功能依次将一对输入（键和值）转换为一组中间结果对（

20、键和数值）；reduce 函数使用相同的键来对值集进行处理，并于分布式 HDFS文件系统内存储处理结果。（3）Hive 是一种以 Hadoop 为基础开发的数据存储系统，一般在大数据业务的分析与计算中比较常见。该系统能够为使用者提供他们所熟悉的 Hive QL 请求语言（HQL）界面，使其能够将 HQL 请求编译为 Hive解析器设置的 Map-Reduce 程序，并将数据表格存储至HDFS 文件系统内。（4）用于监测和实施规划工具的工具。该工具可以有效实现监控系统状态与数据分析工作状态的目的。当前编程工具基于管理员指定的编程策略和资源状态规划数据分析，并分析任务之间的关联或关系。（5）这套编

21、程工具包括 SQL 转换、并行 ETL 工具、任务管理以及索引管理等工具，向系统管理人员提供在线 GUI 并简化系统配置管理。4.2 关键技术互联网行业在最初设计 Hive 技术时是为了让进一步简化大数据分析，并没有考虑到其他行业对这项技术的需求。与互联网大数据分析相比，电力大数据分析存在很大的不同，因此需要对 Hive 的功能与性能进行大幅的优化。考虑到 Hive 技术的局限性以及电力大数据分析的特点，其扩充与优化分贝从以下三个方面进行：数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineeri

22、ng2244.2.1 基于网格文件的多维索引在索引支持方面 Hive 的功能偏弱，获取所需数据的方式为全表扫描，因此会对 CPU 资源造成一定程度的浪费，从而降低大数据分析的性能；此外，电力大数据本身有着多维区间查询和查询维度固定的特点。例如某地区的用电采集系统，在查询数据信息时一般采用的筛选维度为时间代码和单位代码，结合具体的业务场景，可能还会涉及到用户类型、终端类型等其他的查询维度。利用以上特点开展数据分析工作，把无关数据用索引技术进行过滤，能够使数据分析性能得到明显的提升。考虑到电力大数据的查询特点以及 Hive 技术无法有效支出索引的因素，此系统以网格文件(Grid File)为基础，

23、设计了分布式多维索引 DGF Index(Distributed Grid File Index)，从而能够实现提升该系统多维区间查询的性能的目的。DGF Index一种以网格文件与分布式哈希表（DHT）为基础设计开发的软件，表 2 为此软件的体系结构示意。通过对 Hive 命令行和 HQL 解析器进行拓展，Hive 再进行识别解析后得到相关的索引命令。根据表名、字段名以及查询条件等全面查找索引数据结构，定位所需数据，并将检索出来的数据上传到 Hadoop 计算框架，最后实施查询要求的计算工作。扫描索引创建起需要先完成索引表的创建，再利用一致性哈希算法映射索引结构至 DHT 结构后进行保存。为

24、了进一步提升系统性能，设置索引创建任务为 Map-Reduce 任务。同时收集维度信息等元数据，并将其保存于索引元数据管理器内。表 2：DGF Index 结构拓展的 Hive 命令行拓展的 HQL 解析器索引创建器索引元数据管理器索引数据收集器Hadoop 计算框架分布式哈希表 DHTHDFS 文件系统4.2.2 基于查询重写的 SQL 到 HQL 自动翻译工具HQL 是一种生成于 SQL 子集的 Hive 查询语言，但语法方面的差异性较为明显。以关系数据库为基础的电力数据分析系统中大量的含有 SQL 存储，如某地区电力用户采集系统就是由数万条 SQL 语句所组成，但是这其中包含了大量 EX

25、ISTS 关键字等不支持 SQL 特性的 HQL。在将其迁移至云计算环境中时，必须把这类 SQL 语句翻译成等同的 HQL 语句。然而如果采用手工翻译的方法存在极大的难度，需要运用到极其大量的人力成本和时间成本，并且有很大可能出现翻译错误的情况。为了提高其翻译的效率和准确性，开发了一种工具(QMapper)来实现将 SQL 自动翻译为 HQL 的功能，该工具结构为表 3 所示。SQL 解释器解析来自用户端的SQL 语句后再通过查询重写器扫描解析结果，如果符合重写规则重写得到等价的 HQL 语句；连接（JOIN）优化器接收查询重写器提交的 HQL 语句后，选择 JOIN 结构最优语句后发送至计划

26、评估器。统计信息收集器在进行代价模型更新的同时，设定好对 Hive 表统计信息的收集时间间隔。计划评估器通过查询执行计划和统计信息收集器给予的反馈信息，计算执行计划代价，最后选择代价最小的计划对应的 HiveQL 语句为最终转换结果。表 3：QMapper 架构SQL 解释器查询重写器基于规则的查询重写基于代价的 Join优化计划评估器统计信息收集器HiveHive 统计信息Hadoop 计算框架HDFS 文件系统Hadoop 统计信息4.2.3 支持数据更新的混合存储模型由于数据的更新与删除无法通过 Hive 实现，因此还需要设计一种混合存储架构(DualTable)。组成这项设计的内容分为

27、主表(Master Table)和附表(Attach Table)。主表作为每张 DualTable 表数据的主要存储，无需提供随机改写这项功能支持，但需要确保读写性能的流畅性；附表的作用则是对主表中的数据进行更改。DualTable主表与附表的合并视图，就是该标当前数据内容。表 4为 DualTable 结构示意图。DualTable 基于原声 HQL 增数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering225加了删除语义和数据更新功能，在执行数据读取命令时，通过调用 DualTab

28、le 数据读取接口，实现对主表与附表的同时访问。数据更新接口负责将 UPDATE 或DELETE 操作所更新或删除的数据写人附表。如果附表中存在过大的数据量时，可能会对数据信息的读取速度产生影响，这时可利用 DualTable 的数据合并机制，在主表中应用附表的更新数据，之后再将附表数据进行清空。总结此系统的主要优势为：（1）具有良好的拓展性。在线拓展功能能够通过良好的数据计算与存储能力实现用户业务系统无需停机或中断用户服务，运维成本大幅降低。（2）具有较强的分析计算能力。可以提供 SQL接口与系统级优化，支持查询复杂数据功能，在运用Map-Reduce 技术后，能够进一步提升对复杂数据的计算

29、效率。（3）具有降低成本投入的作用。通过运用廉价服务器集群的方式来实现高性能环境的建设。5 结语本文主要介绍了当前电力大数据应用的特点，并结合现阶段我国云计算技术发展最新情况，构建了一种以云计算为基础的电力大数据分析系统，并详细说明了此系统的软件体系结构与关键技术。大数据技术和云计算技术的结合，能够有效的优化数据分析系统运行效率，为智能电网的普及和应用提供有效的支持，充分程度上满足当前社会对于电力数据信息的需求。参考文献1 魏岸若，刘蛟.基于云计算的电力大数据分析技术J.中国新通信,2022,24(17):51-53.2 刘超，王宇，马旭东，姜姝宇，曹永娇.基于云计算的电力大数据分析技术与应用

30、J.科技与创新,2021(24):150-151+154.3 段剑，王新朝，何晓阳.基于云计算的海量电力数据分析系统设计与应用研究 J.自动化技术与应用,2020,39(8):168-172.4 杜红军，李巍，张文杰，等.基于云计算技术的电力大数据分布式检索系统 J.电网与清洁能源,2018,34(9):19-24.5 余入丽，刘海艳，马先平，等.云计算下电力信息系统数据安全技术分析-评电力大数据应用工程技术原理与案例分析J.现代雷达,2021,43(9):0018.6 蔡骏逸.云计算技术支持下电力大数据分析技术与应用分析 J.电子世界,2021(6):79-80.7 菅利彬，吴戈，舒畅，等.面向电力大数据的用电负荷分类及用户用电行为分析 J.电子乐园,2022(11):0226-0228.作者简介李琦（1985-），男，福建省南安市人。大学本科学历，工程师。研究方向为电力系统及其自动化、电力信息化。表 4：DualTable 结构DualTable 命令行接口拓展的 Hive命令解析器Hive 运行时环境数据读取接口数据更新接口数据合并器HBaseHDFSDualTable 元数据表 X 的 AtachTable表 Y 的 AtachTable表 X 的 MasterTable表 Y 的 MasterTable

展开阅读全文