基于内存并行化聚类的用户用电行为分析.pdf

资源描述

1、2023 年第 7 期116计算机应用信息技术与信息化基于内存并行化聚类的用户用电行为分析黄东升1 郭崇1HUANG Dongsheng GUO Chong 摘要针对经典 K-means 选取初始值具有一定的盲目性和不确定性，提出了基于 Canopy+算法的改进 K-means聚类算法。首先对实验数据进行预处理，并从每条日负荷数据提取六个特征值；然后搭建 Spark 大数据集群，利用集群具有的内存并行化特点，提升改进聚类算法处理大规模数据的能力；最后将预处理后的用户日负荷数据进行单机 K-means 以及改进后算法的集群聚类。实验结果表明，在降低迭代次数的基础上，改进后集群聚类算法误差平方

2、和降低 3 659.906、轮廓系数提高 0.03、DB 指数下降 0.06。使用改进后算法将电力用户划分为五个类别，其中具有调峰潜力、较优质的需求侧响应用户为第 5 类用户。关键词分时电价；用电行为；内存并行化；大数据平台；聚类分析doi：10.3969/j.issn.1672-9528.2023.07.0291.沈阳理工大学信息科学与工程学院辽宁沈阳 1101590 引言需求响应是指电力用户根据电价信号或激励机制主动改变原有用电模式的行为，其中分时电价是需求响应在如今电力市场发展成熟的环境下能够削峰填谷保障电网运行平稳的重要方式之一1。因此，分析研究在分时电价下的用户用电行为，发掘电力

3、用户潜在的用电习惯，对于制定合理的电价策略，从而引导用户的用电行为，对电网削峰填谷与节能改造具有重要意义。随着智能电网的建设和发展，电力数据的智能采集终端在业界得到普遍应用，已扩展到工商业用户等各类用电，采集和处理的用电数据具有结构类型多样，交互性强、数据量巨大等特点2。传统的数据处理技术已经无法解决爆发式增长的电力数据，导致智能电网无法跟上市场变化，阻碍着电力行业的发展3。在电力行业中，经常使用聚类算法对用户负荷数据进行分析处理。例如文献 4 对用户日负荷使用自适应模糊 C 均值算法，实验结果证明，该方法可以精细化描述用户用电行为特征。文献 5 根据居民用户用电日负荷曲线提出了一种基于加权表

4、决的集成聚类算法，案例分析结果表明提高了负荷曲线聚类效果。上述聚类算法分析均没有考虑在电力大数据背景下海量负荷的存储分析问题。本文提出了基于内存并行化聚类分析方法（spark-conopy+-K-means,SCK），利用 Spark 大数据平台具有强大的内存并行计算能力，对 K-means 算法初始值选取具有盲目和不去确定性进行改进，并进行内存并行化聚类，实现电力用户负荷数据的准确分析。1 内存并行化聚类算法实现聚类算法是一种重要的数据挖掘方法，已经被广泛应用到工业和科学研究等各个领域6,7。在电力行业，经常使用K-means 算法对用户负荷进行分析处理，但其本身存在一些不足和缺陷8-9。比

5、如，数据集的聚类类别个数难以确定，需要设定不同的 K 值进行聚类结果对照，选择最优 K 值，具有一定的盲目性；再比如，即使确定了 K 值，算法进行聚类时，初始类别中心点集是随机选取数据集中的 K 个数据对象，具有一定的不确定性。针对 K-means 算法上述两个不足之处，本文提出了基于 Canopy+算法的改进 K-means 聚类算法。虽然 Canopy+算法聚类精准度低，但通过合理的阈值T1、T2 选取策略，可以正确得出数据集的聚类类别个数，因此 Canopy+算法可以作为数据集的预聚类10。Canopy+算法把距离到数据集均值点最近的样本点作为 canopy 子集中心点，消除了中心点选取

6、的不确定性。而且 Canopy+算法，阈值 T1、T2 一旦确定，得到的 canopy 子集个数会确定，以及canopy 子集的中心点集也会确定。因此可以把 Canopy+算法和经典 K-means 算法结合使用，前者对数据集进行预聚类，得到的 canopy 子集个数和中心点集作为后者的初始值。智能电网中负荷采集频率一般每日进行 96 次采集，也就是每天采样频率为15 min/次，每天会产生海量的负荷数据，传统的聚类算法已无法有效的对其进行分析处理，因此电力行业已经普遍采用大数据平台进行电力数据的分析与处理。基于 Hadoop 的大数据平台需要将算法执行过程中产生的中间结果在内存和磁盘之间频繁

7、地进行交换，这就使得 I/O 成为 Hadoop 大数据分析平台的瓶颈，严重影响了聚类算法的 2023 年第 7 期117计算机应用信息技术与信息化性能11。在处理大型数据集时，聚类算法本身产生的大量迭代过程，若仍采用 Hadoop 大数据分析平台进行数据分析将会严重影响算法的执行效率。由于 Spark 平台具有良好的并行内存计算框架，可以充分使用集群中的内存，使聚类迭代计算得到的中间结果直接放入在内存中，减少I/O读写操作，因此可以提高聚类算法的执行效率。Spark 平台提供对改进 K-means 算法并行化的支持，其主节点会自动把要执行的作业任务和数据集传输到集群中各个节点上。在并行聚类计

8、算的整个过程中，通过对弹性分布式数据集（resilient distributed dataset,RDD）操作，实现在内存中计算聚类算法产生的中间结果；通过分布式文件系统(Hadoop distribute fi le system,HDFS)对原数据集和最终聚类结果进行存储。Spark 平台下的内存并行化聚类过程如下：首先，把数据集上传到分布式文件系统 HDFS 中，并生成弹性分布式数据集 RDD，而 RDD 会把数据存储到节点本地的缓冲中，方便需要时直接调用到内存。然后，在 Map 操作的过程中对各节点本地数据进行聚类，同时进行标记。最后，通过 Reduce 操作，合并 Map 过程中标

9、记过的所有数据，并计算最终聚类结果。SCK 的具体实现步骤如下：（1）将数据集上传到分布式文件系统 HDFS 中，然后把 HDFS 数据文件生成弹性分布式数据集 RDD，再使用 Map对数据集格式化，并调用 RDD 中的 cache 函数后，再把数据集读入到内存中。（2）在集群各节点上读取本地缓存中的数据，执行Canopy+算法，计算出阈值 T1、T2。（3）计算出 canopy 子集的中心点，并同步到全局canopy 中心点链表中。并把该数据对象从数据集中删除。（4）计算其他数据对象与该 canopy 中心点的距离 d。（5）比较 d 与阈值 T1、T2 的大小。若 dT1，则把该数据对象分

10、配到该 canopy 子集中；如果 d T2，则把当前数据对象从数据集中剔除。（6）根据输出的 canopy 子集个数来判断是否调整 T2。（7）若数据集为空时，Canopy 算法部分结束，把生成的 k 个 Canopy 子集执行 RDD 操作。否则继续从步骤（3）、（4）、（5）开始执行。（8）将 Canopy+算法输出的聚类个数 K 以及 K 个子集中心点作为 K-means 算法的输入。（9）对数据集执行 RDD 操作，再使用 Map 操作格式化数据集，并执行 cache 函数后把数据集读入内存。（10）在集群各节点上读取本地缓存中的数据，然后执行 K-means 算法，计算每个数据对象

11、到 K 个初始中心点的距离，将分配到最近的簇中。（11）计算 K 个类簇内所有数据对象的均值作为其新的中心点，然后把新的中心点同步到全局聚类中心点链表中。（12）如果没有数据对象发生改变，输出聚类结果，K-means 算法结束。否则继续从步骤（10）开始。2 仿真实验2.1 实验数据集本文数据源自 2021 年 3 月份沈阳某地区 7609 个工商业用户的70 3491条日负荷数据，数据采集的频率为60分钟/次，一天共计 24 次采样，3 月份每户约 90 条日负荷数据。该地区峰时段：7:00-11:00，19:00-23:00；平时段：11:00-19:00；谷时段：23:00-次日 0:0

12、0-7:00。2.2 数据预处理由于原数据集包含的很多字段与用户用电行为不具有相关性，因此在数据预处理前，需要删除的字段有地区码、表号、供电单位、接线方式、合同容量、综合倍率。此外，需要对每个用户相序类型 A/B/C 的用电量合并后求均值，然后把该均值作为用户当天的日负荷，得到日负荷总计 234 497 条，用户数仍为 7609 户。此时，一条日负荷包含的字段信息有：采集日期、用户编号、每时负荷数据(0:0023:00)。由于聚类算法对数据集离散程度较为敏感，而在原始数据集中包含了零负荷以及缺失负荷、异常负荷，因此需要对用户日负荷进行预处理，以提升聚类算法的执行效果和效率。（1）数据过滤在原始

13、的电力用户负荷数据中，用户的日负荷数据可能存在某一时刻为缺失值或者连续多个时刻为缺失值，当一条日负荷中的缺失值个数超过 6，删除该条日负荷数据。有些用户日负荷数值为 0 的天数较多，当日负荷为 0 的天数大于一周时，删除该用户全月的日负荷数据。此外，还存在某些用户的日负荷条数不足 31 天，当某用户日负荷天数小于 24天，聚类分析中不能准确地反映该用户 3 月份的用电行为，因此删除该用户当月的全部数据，即剔除该用户。具体数据过滤情况如下：日负荷中的缺失值个数占比达到 0.25 的有30 464 条，用户编号为缺失值的有 2196 条，两者占原数据集13.93%；用户日负荷值为 0 的天数占比达

14、到 0.25 的有 28 138条，占原数据集 12%；用户 3 月份日负荷条数占比小于 0.75的有 1961 条，占原数据 0.8%。最终保留 5560 个用户，共计171 738 条日负荷，且保证了每个用户至少 24 天日负荷数据。（2）填充缺失值经过上一步的数据过滤，已经剔除了缺失值占比大的日负荷数据及无效数据，接下来对含有缺失值的日负荷数据采用均值填充。对于含有缺失值的日负荷数据，其缺失值处理如下：若该条日负荷处于此用户的月首，则取该日负荷后两2023 年第 7 期118计算机应用信息技术与信息化天日负荷同时刻的均值；如果该条日负荷处于此用户的月尾，则取该日负荷前两天日负荷同时刻的均

15、值；处于其他日期的日负荷，则取该日负荷前后两天同时刻的均值。如果向前或者向后查找同时刻的数据也为缺失值，则相应的顺沿查找下一条日负荷数据，若还是为缺失值，则最后用 0 值填充。（3）特征提取本文主要是挖掘出具有调峰潜力的用户，引导用户参与到需求侧响应，主动调整峰时段的用电量到其他时段。当用户峰时段用电量较高，谷、平时段用电量较低，则其峰时耗电率、峰谷以及峰平耗电率差值偏大，说明该类用户存在调峰的潜力，反之该类用户不具有调峰的能力。负荷率越大表明该类用户峰谷差值较小，调峰潜力有限。因此选取以下六个特征值：峰时耗电率、谷时耗电率、平段耗电率、峰谷耗电率差值、负荷率、峰平耗电率差值。2.3 仿真实验

16、实验数据集经过数据预处理后得到 171738 条日负荷，每条日负荷具有 6 个特征值。对数据集进行聚类实验时，在单机上采用传统 K-means 聚类算法进行实验，在 Spark 集群上进行改进的 K-means 算法仿真实验。此外，除了选取误差平方和SSE、算法运行时间作为衡量算法的参数外，也选取了聚类算法的两个内部评价指标：轮廓系数(Silhouette Coeffi cient,SC)、DB 指数(Davies-Bouldin Index,DBI)。SC 指标计算公式为：()11MciSS iM=（1）()()()()(),b ia iS imax b ia i=（2）式(2)中，b(i

17、)为数据对象 i 与类的最小平均距离，a(i)为数据对象 i 与同簇其他数据对象的平均距离，该值表示单一数据对象的轮廓系数。上式(1)中，M 为日负荷总条数，该式表示数据集中所有数据对象的轮廓系数均值，SC 值越大，说明聚类效果越好。DBI 指标计算公式为：11KDBIKKIRK=（3）()()(),kjKkjkjd Xd XRmaxd C C+=（4）上式（4）中，d(Xk)、d(Xi)为类内样本平均距离，d(Ck，Ci)簇中心距离，该公式值越小表明类内样本点更紧凑、类间间隔更远。DBI 值越小，说明聚类效果越好。2.4 实验结果分析由于传统的 K-means 算法是随机选取初始簇中心，聚类

18、结果具有一定的随机性，因此选取其 5 次实验结果的均值作为衡量指标值；而改进的 K-means 聚类算法，一旦阈值 T1、T2 确定，得到的初始簇中心不变，因此在集群环境下，改进算法的衡量指标值取一次的实验结果。实验结果如下所示。表 1 单机算法与集群算法对比算法衡量指标SSESCDBI时间(s)K-means10 697.2510.3570.9895SCK7 040.3450.3870.9239SCK 方法聚类结果总体上优于单机 K-means 聚类。从误差平方和 SSE 来看，单机 K-means 算法容易受到噪声点数据的影响，导致其迭代计算次数增加，影响最终聚类效果，而 SCK 可以有效

19、地减少噪声点对聚类过程的影响，降低了算法迭代计算次数。从聚类算法的两个内部评价指标来看，集群聚类算法 SCK 的轮廓系数相比于单机 K-means 算法提高了0.03，其每个聚类类别的轮廓系数也相比单机聚类略有增加；集群算法的 DBI 比单机 K-means 下降了 0.06，两种指标均表明集群算法得到的聚类结果相比于单机算法类内数据点更紧密、类间的间隔更远。从算法运行时间来看，集群聚类 SCK 比单机聚类的运行时间多 4 s，其中一部分时间消耗在 Canopy 预聚类阶段用于生成 canopy 子集以及产生初始聚类中心，另一部分则消耗在集群的资源调度上。但集群聚类算法 SCK 在聚类效果上明

20、显提升，因此该算法多出的运行时间是可以接受的。因此采用 SCK 算法对实验数据进行聚类分析，得到五类用户，每类日负荷数据依次有 60 139 条、63 436 条、34 882条、13 357 条、10 924 条，前两类日负荷占比较高，后三类日负荷占比较少。一般情况下，同一用户每天的日负荷使用规律具有相似性，在进行聚类时该用户日负荷数据被划分到同一类别中的概率较大。为了更加精准的对 3 月份用户用电行为进行分析，保留同一类别中日负荷天数至少20天的用户，最终得到 4486 个电力用户的 112 590 条日负荷数据，如表 2所示。其中第五类用户峰谷差值较大，具有调峰的潜力。表 2 保留用户及

21、日负荷数目类别标签保留用户数日负荷条数1187243 3752191952 341350112 7624128274256613703 总结针对传统聚类算法无法分析处理海量负荷数据的问题，本文利用 Spark 平台具有内存并行化计算的特点，将采用改进后的 K-means 算法运行在 Spark 大数据处理平台上对实验数据进行分析处理。实验表明，相较于单机 K-means 算法，基于内存并行化的聚类算法可以提升聚类效果与分析效率。(下转第 122 页）2023 年第 7 期122计算机应用信息技术与信息化在完成主要功能的基础上完善系统的图片文字功能,增加对识别图片文字统计记录等操作，提高用户的系

22、统使用体验感。其中核心功能是通过百度 OCR 识别技术接口实现核酸截图的文字信息识别与提取,经不断优化完善做到高效、精准。将识别的有效信息保存记录于表格文档中是本系统的最终目标,从导入、识别到最后保存三个简单的步骤来实现信息的统计。系统设计严格遵守规范,降低模块冲突风险,提高系统性能。而在系统代码实现过程中,优化代码的实现,减少代码耦合性,便于提高系统可操作性。从上述性能需求上来说,使用 PyQt5 应用框架完成系统设计和测试,让系统更具有可操作性。参考文献：1 曾悦,马明栋.基于 Tesseract OCR 文字识别的研究 J.计算机技术与发展,2021,31(11):76-80.2 仇明.

23、基于百度 API 的文字识别程序设计 J.襄阳职业技术学院学报,2022,21(05):64-66+101.3 张龙军,王天军,沈佳,等.基于大数据的 API 接口运维自感知监控方法研究J.电子技术与软件工程,2020(23):147-148.4 张婷婷,马明栋,王得玉.OCR 文字识别技术的研究 J.计算机技术与发展,2020,30(04):85-88.5 关丽梅.Python 中用多线程爬取网页图像的好处 J.信息与电脑(理论版),2020,32(22):63-65.6 魏瑾.Java 多线程技术在网络通信系统中的应用 J.山西电子技术,2022(01):66-68.7 李玉臣.基于 Op

24、enCV 的计算机图像识别技术研究与实现J.电脑编程技巧与维护,2022(11):147-149+169.8 王兴,郑勇锋,严永兵,等.基于 OCR 技术的票据识别算法研究 J.智能计算机与应用,2021,11(11):101-106.9 章安,马明栋.基于 Tesseract 文字识别的预处理研究 J.计算机技术与发展,2021,31(01):73-76+174.10 张宜轩,王永芳.基于百度 OCR 识别的研究生智能推免选拔平台 J.现代信息科技,2020,4(13):85-88.【作者简介】范燕玲（2000），女，广西岑溪人，本科在读，专业方向：信息与计算科学。吴钰婷（2001），女，广

25、西河池人，本科在读，专业方向：信息与计算科学。曾慧敏（2002），女，海南临高人，本科在读，专业方向：信息与计算科学。王一帆（2002），女，贵州毕节人，本科在读，专业方向：信息与计算科学。莫洁安（1989），广东肇庆人，男，讲师，研究方向：人工智能与大数据挖掘算法研究。（收稿日期：2022-12-30 修回日期：2023-02-12）参考文献：1 王宝,叶斌,朱刘柱,等.市场环境下我国电力需求响应实践与探索 J.电力需求侧管理,2021,23(05):91-95.2 宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战 J.电网技术,2013,37(4):927-935.3 谢清玉,张耀

26、坤,李经纬.面向智能电网的电力大数据关键技术应用 J.电网与清洁能源,2021,37(12):39-46.4 罗滇生,杜乾,别少勇,等.基于负荷分解的居民差异化用电行为特性分析J.电力系统保护与控制,2016,44(21):29-33.5 严强,李扬,樊友杰,等.基于加权表决集成聚类的居民用电行为回归分析 J.电网技术,2021,45(11):4435-4446.6 何清.物联网与数据挖掘云服务 J.智能系统学报,2012,7(3):189-194.7 周涛,陆惠玲.数据挖掘中聚类算法研究进展 J.计算机工程与应用,2012,48(12):100-111.8 王千,王成,冯振元,等.K-mea

27、ns 聚类算法研究综述 J.电子设计工程,2012,20(07):21-24.9 吴夙慧,成颖,郑彦宁,等.K-means 算法研究综述 J.现代图书情报技术,2011(5):28-35.10 王海燕,崔文超,许佩迪,等.Canopy 在划分聚类算法中对 K 选取的优化 J.吉林大学学报(理学版),2020,58(3):634-638.11 海沫,张游.Spark 平台下聚类算法的性能比较 J.计算机科学,2017,44(合刊 1):414-418.【作者简介】黄东升（1993），男，安徽蒙城人，硕士研究生，研究方向：电力大数据。郭崇（1980），女，辽宁沈阳人，副教授，研究方向：机器学习、图像处理。（收稿日期：2023-02-01 修回日期：2023-04-10）(上接第 118 页）

展开阅读全文