1、基金项目:国家自然科学基金(61202369,61401269,61572311);上海市科技创新行动计划地方院校能力建设项目(17020500900);上海市教育发展基金会和上海市教育委员会“曙光计划”(17SG51)收稿日期:2021-05-18 修回日期:2021-05-27 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0103-05基于 MDS-WFCM 的日负荷曲线聚类方法杨 邓1,杨俊杰1,2(1.上海电力大学电子与信息工程学院,上海 200090;2.上海电机学院,上海 201306)摘要:电力负荷曲线聚类是挖掘电
2、力消耗大数据的主要方法。为解决现有研究中聚类方法在运行效率、聚类质量等方面存在的不足,提出了一种基于多维标尺(MDS)及加权模糊 C 均值聚类(WFCM)的日负荷曲线聚类方法。首先使用 MDS 将负荷曲线数据降维处理,然后利用最小二乘法原理(LSM)确定降维指标数目以及改进熵权法确定指标权重,最后采用 WFCM聚类方法对日负荷曲线聚类分析。算例分析表明,所提方法在聚类效率、质量以及算法鲁棒性方面均优于传统方法。关键词:多维标尺;最小二乘法;改进熵权法;鲁棒性中图分类号:TP301.6 文献标识码:BClustering Method of Daily Load Curve Based on M
3、DS-WFCMYANG Deng1,YANG JUN-jie1,2(1.School of Electronic and Information Engineering,Shanghai University of Electric Power,Shanghai 200090,China;2.Shanghai Dianji University,Shanghai 201306,China)ABSTRACT:Power load curve clustering is the main method for mining big data of power consumption.In orde
4、r tosolve the shortcomings of the existing clustering methods in terms of operation efficiency and clustering quality,thispaper proposes a daily load curve clustering method based on multi-dimensional scale(MDS)and weighted fuzzy C-means clustering(WFCM).Firstly,the MDS was used to reduce the dimens
5、ion of load curve data.Then,the leastsquare method(LSM)was used to determine the number of dimension reduction indicators,and the improvedentropy weight method was used to determine the weight of indicators.Finally,the WFCM clustering method was usedto cluster analysis the daily load curve.Numerical
6、 examples show that the proposed method is superior to traditionalmethods in clustering efficiency,quality and algorithm robustness.KEYWORDS:Multidimensional scaling;Least square method;Improved entropy weight method;Robustness1 引言近年来,随着智能电网数字化、信息化的不断发展,电网公司积累了海量的用电负荷数据。聚类算法就是通过挖掘用户的用电行为实现对电力用户负荷曲线有
7、效分类,对电网的实时调度以及运行规划等方面提供一定的参考意义。常用的聚类方法有直接聚类和间接聚类。程江州等1采用 CK-means 算法对负荷曲线直接聚类,但直接聚类方法在计算效率、聚类质量等方面存在着严重的不足。间接聚类是将原始负荷数据进行降维或特征提取,然后进行二次处理的技术。陈菲等2采用多层凝聚方法降低负荷曲线的维度,提高了聚类精度。陈烨等3采用 SVD 分解将高维负荷数据映射至低维坐标中,实现降维聚类。宋英军等4将欧式距离与动态时间弯曲距离相结合提取出日负荷曲线的整体与局部等 3种特征,采用 K-means 算法对日负荷曲线聚类。上述研究成果,采用的降维方式不能准确反映原始负荷曲线的特
8、征,这会对聚类的效果产生影响,从而影响聚类的质量。鉴于此,本文提出了一种基于多维标尺及加权模糊 C均值聚类的日负荷曲线聚类方法。通过 MDS 降维技术保留了原始负荷曲线之间的特征,结合加权模糊 C 均值聚类方法达到对负荷曲线的精准分类。以我国某地区真实数据为例,301验证了本文方法的有效性。2 MDS 降维理论将 MDS 理论5,6 应用于日负荷曲线降维中,假定一个由m 条负荷曲线,每条负荷曲线有 n 个采样点,其构成原始空间的距离矩阵 DRmm,表示为D=d11d12d1md21d22d2mdm1dm2dmm|(1)dij表示第 i 个用户负荷曲线到第 j 个用户负荷曲线之间的欧氏距离,将原
9、始 n 维空间数据降至 q 维空间表示为 Z=z1,z2,zmRmq,第 i 个用户的负荷数据为 zi=zi1,zi2,ziq,且满足任意两个用户在 q 维空间中的欧氏距离等于n 维空间的欧氏距离,以此达到降维效果。根据降维前后距离不变原则可得d2ij=zi-zj2=zi2+zj2-2zTizj(2)假设经过降维后 的负荷矩阵 Z 是中心化的,满足:mi=1zi=0。直接由 D 难以确定 Z 的表达式,若定义内积矩阵 B=ZTZ Rmm,其中 bij=zTizj。则有:bij=-12(1m2mi=1mj=1d2ij-1mmi=1d2ij-1mmj=1d2ij+d2ij)(3)对矩阵 B 做特征
10、值分解,得:B=VVT,其中=diag(1,2,n)为矩阵 B 的特征值构成的对角矩阵,满足 12n,V 为特征向量矩阵。取前 q 个最大非零特征值,它们构成的对角矩阵为 q=diag(1,2,q),对角阵元素依然按照降序排列令 Vq为其对应的特征向量矩阵,则降维后矩阵 Z 可以表示为Z=Zq=12qVTq Rmq(4)3 基于 MDS-WFCM 的聚类算法3.1 数据预处理3.1.1 异常数据处理负荷数据在采集过程中由于仪表故障、传输通信故障等常常会产生异常数据。当采集的某条负荷曲线的异常量高于 10%及以上时,就认为该条负荷曲线无效,反之,则通过式(5)进行修正。本文假设某条负荷曲线 xk
11、=xk,1,xk,2,xk,n经检测存在异常且异常量低于 10%,则其修正量为xk,i=p1p=1xk,i-p+o1o=1xk,i+op1+o1(5)式中:xk,i为异常数据点 xk,i的修正值;p 与 o 分别表示为异常点向前和向后采集的数据点,一般地,p1和 o1的取值范围为35。3.1.2 负荷数据归一化为防止原始数据之间因数量级差异影响聚类效果。需要将原始数据归一化处理变换至0,1之间。本文采用最大值归一化的方法,如式(6)所示xk,i=xk,imax(xk,1,xk,2,xk,n)i=1,2,n(6)式中:xk,i表示采集的第 k 条负荷曲线在 i 个采样点的负荷值,xk,i表示归一
12、化处理后的第 k 条负荷曲线在 i 个采样点的负荷值。经归一化处理后负荷曲线 xk,i构成负荷矩阵 X。3.1.3 高斯平滑处理在实际的负荷数据采集过程中,所采集的数据不可避免的会受到多种干扰信号或者设备故障等因素导致负荷数据存在较大的波动。采用高斯平滑处理能够消除因为数据突变而带来的高额噪声干扰,起到更好的聚类效果。以某条负荷曲线为例,平滑处理前后的负荷曲线对比如图 1 所示。图 1 负荷曲线的平滑处理3.2 确定降维指标及权重为了充分利用第 2 节中矩阵 B 特征值的下降趋势,本文采用最小二乘法来确定 q 值的大小,步骤如下:Step 1:计算特征值。对矩阵 X 多维标尺处理,获得 n 个
13、特征点(i,i)组成的数据集 S。Step 2:计算拟合曲线。设置初始值 q=3,前 q 个特征点组成的数据集 Sq,用最小二乘法对 Sq作拟合,得拟合曲线 y=kqx+bq,再依次计算当 x=1,2,q 时对应的拟合值 y,记录在数据集 Sq中。Step 3:求拟合误差。求出前 q 个特征点的拟合平均误差 Tq,并计入数据集 T。Step 4:计算 q=q+1,重复 Step 2 和 3,当 qn 时,转到Step 5。Step 5:确定降维指标 q 的值。找出数据集 T 中的最小值,对应的 q 值即为最终的降维指标数目。改进熵权法配置指标权重如下1)计算熵值 ej。第 j 个降维指标的熵值
14、可由下式确定ej=-kmi=1PijlnPij(7)401Pij=zij/mi=1zij(8)式中:i=1,2,m,j=1,2,q;k 为常数,k=1/lnm;Pij为第i 个用户下的第 j 个被评价对象的贡献度。2)计算权重 wj。利用改进后的权重计算公式计算 wjwj=exp(qk=1ek+1-ej)-exp(ej)q=1(exp(qk=1ek+1-e)-exp(e)(9)式中:wj0,1,且满足qj=1wj=1(10)3.3 WFCM 聚类算法考虑指标权重对聚类结果的影响,本文采用的 WFCM算法与传统 FCM 算法稍有不同,步骤如下:Step 1:聚类中心初始化。设 L 为聚类数,从降
15、维后的负荷矩阵 Z 中随机挑选出 L(2L0.5n)条负荷曲线 V=V1,Vi,VL作为初始的聚类中心,其中 Vi=vi1,vi2,viq。Step 2:确定隶属度矩阵 U。隶属度矩阵 U=U1,Ui,Um,Ui=ui1,uij,uiL,其中 uij表示 zi属于第 j 个聚类中心的隶属值,uij可以表示为uij=Ll=1(qk=1wkd2k(zik,vik)qk=1wkd2k(zik,vlk)1/(t-1)-1(11)Step 3:计算目标函数 J。在负荷曲线聚类过程中,将每个用户负荷数据到所有聚类中心的距离的加权平方和定义为目标函数:J(U,V,W)=mi=1Lj=1qk=1(uijwkd
16、2k(zik,vik)(12)Step 4:更新聚类中心。若 Step 3 中目标函数 J 的值未达到最小,那么需要根据式(13)重新选取聚类中心并返回Step 2。vik=ni=1(uij)tzik/ni=1(uij)t(13)Step 5:当目标函数 J 达到最小值时,算法结束。采用的加权模糊 C 均值算法是在原始 FCM 的基础上对隶属度矩阵、目标函数等更加细致化的调整,对聚类效果有更进一步的提升。3.4 聚类有效性检验聚类的有效性检验是通过聚类有效性指标确定最佳的聚类数。常用的指标有 XB 指标、SC 指标、SSE 指标、CHI 指标、DBI 指标等7。其中 XB 指标在模糊聚类当中是
17、较为有效的指标。XB 指标值越小,代表的聚类效果越好,并且该指标相对于其它指标更加适合用于负荷曲线聚类的研究。由于本文考虑计入权重的影响,故 XB 指标计算公式如下XB=Li=1mj=1qk=1(utijwkd2k(zik,vik)nminilqk=1(utijwkd2k(vik,vlk)l=1,2,L(14)XB 指标的分子与分母分别反映的是类内紧凑程度与类间分散程度,当类内紧凑度越小,类间分散度越大时,即 XB值越小,聚类效果越好。反之,不然。所以当 XB 指标取得最小值时所对应的 L 即为最佳聚类数。本文的 MDS-WFCM 负荷聚类算法流程图如图 2 所示。图 2 基于 XB 指标的
18、MDS-WFCM 负荷聚类算法流程图4 算例仿真分析4.1 实际日负荷曲线聚类分析本算例选取中国北方某地区 2017 年 9 月某个工作日2142 个用户的日负荷曲线为研究对象,采样间隔为 30min,每条负荷曲线共计 48 个采样点。样本数据经预处理去除无效负荷曲线后,最终共含 2112 条有效的日负荷曲线,构成211248 阶初始矩阵。采用 MDS 降维后绘制矩阵 B 的特征值曲线,如图 3 所示。采用最小二乘法,求平均拟合误差 Tq,拟合误差集如表1 所示。501图 3 特征值曲线表 1 拟合误差集q34567拟合误差327.6863.21536.52136.82315.9 由表 1 可
19、知,当 q 为 3 时,Tq取最小值,获得最佳拟合曲线 y=kx+b,如图 4 所示。因此本算例最佳降维数为 3,初始231248 阶矩阵便转换为 23123 阶降维矩阵 Z,同时采用改进熵权法获得 3 个降维指标对应的权重向量为 W=0.65,0.27,0.08。以矩阵 Z 以及权重向量 W 作为输入,采用加权FCM 算法进行聚类,将聚类结果与负荷数据经预处理后直接利用 FCM 算法聚类(以下称为传统方法)对比。图 4 两种方法在不同聚类数下的 XB 指标图 5 本文方法聚类结果由图 5 本文方法与传统方法在不同聚类数下的有效性检验指标可知,两种方法分类数对应 XB 指标走势基本相似,当聚类
20、数为 4 时,两种方法的 XB 指标值均取得最小值,因此两种方法确定最终的聚类数均为 4。如图 6、7 所示,本文方法聚类结果中 4 类曲线数目分别图 6 传统方法聚类结果为 544、547、362、659,传统方法聚类结果中对应的 4 类曲线数目为 563、528、362、659。从分类结果可以看出传统方法在类别 1 与类别 2 之间存在少量的误分。分析其原因,传统方法是以负荷数据之间的距离作为相似性判据进行的聚类,这会因为样本数据维度较高导致聚类质量效果较差。而本文方法所采用的 MDS 降维特征提取,在保证负荷曲线之间距离不变的情况下,以负荷主要特征作为聚类的依据,分类结果相对准确且稳定,
21、在聚类质量上优于传统方法。虽然两种方法在结果上存在一定的差异,但总体分类结果仍具有高度的相似性。图 7 两种方法聚类中心曲线对比图 7 为两种方法提取的聚类中心曲线。具体分析这四类曲线:第 1 类负荷曲线为双峰型,主要用户包含政府、公共事业单位等用电较为规律。第 2 类负荷曲线为单峰型,主要为某些商场、写字楼等。第 3 类负荷曲线为避峰型,主要包括夜间用电量高的行业,如公用路灯、网吧、KTV、酒吧等。第 4 类负荷曲线为平峰型,主要包括大工业,制造业等用电量持续高峰。分析表明,本文方法和传统方法聚类中心曲线较为相似,但从工程角度分析,本文方法更能体现用户的实际用电特征,具有较好的应用价值。综合
22、比较两种方法的性能,如表 2 所示,在同时取得最佳聚类数目的情况下,使用本文方法的总的程序运行时间仅为 4.83s,相对于传统方法缩短了 64.8%,且 XB 指标值以及聚类过程迭代次数也均小于传统方法。不难发现,本文方法在运行效率和聚类质量上具有较大的优势,体现了本文方法601的有效性。表 2 两种方法聚类结果性能对比算法最佳聚类数程序运行时间/sMDS 降维聚类时间 总时间XB指标目标函数迭代次数本文方法41.423.414.830.6512传统方法4-13.7213.720.71164.2 算法鲁棒性检验为了检验本文所提聚类方法的鲁棒性8,这里基于 6 类典型日负荷曲线,并在每类负荷曲线
23、每个数据点加入一定比例 r 的随机噪声。模拟出每类 200 条,共计 1200 条日负荷曲线。当噪声比例 r 为 20%时,6 类典型曲线如图 8 所示。图 8 1200 条模拟曲线(r=20%)改变噪声比例 r 的大小,然后采用本文和传统两种方法对模拟的负荷曲线聚类分析。这里定义聚类准确率 h 为分类准确的负荷数量占总负荷数量的百分比。以最佳聚类数、XB 指标、聚类准确率 h 来对比本文和传统两种算法的鲁棒性,结果如表 3 所示。表 3 不同占比扰动信号下两种方法鲁棒性对比r/%本文方法传统方法最佳聚类数XB 指标h/%最佳聚类数XB 指标h/%560.31100.060.36100.010
24、60.37100.060.4199.31560.42100.060.4798.22060.5799.460.5997.32560.6499.250.7185.43050.8294.350.9380.6 根据表 3 可以得出以下结论。1)随着噪声比例的依次递增,两种方法 XB 指标值也越来越大,分类准确率 h 开始出现下降趋势,同时最佳聚类数也随着噪声比例的增加出现一定的偏差。因此可以用该 3种指标衡量算法的鲁棒性。2)当所加噪声比例较小时,两种方法的分类准确率均接近于 100%。但随着噪声比例的增加,对于本文方法,当扰动比例达到 30%时,最佳聚类数开始出现偏差,分类准确率也出现一定的下滑。对
25、于传统方法当扰动比例达到 25%时,最佳聚类数不再为 6,同时分类准确率也出现了大幅度下滑。通过对比,不难发现,本文方法抗干扰能力优于传统方法,鲁棒性较好。在一定强度的干扰下能够较为准确的反映日负荷曲线的主要特征。5 结论本文提出了一种基于 MDS-WFCM 的日负荷曲线聚类方法,通过 MDS 降维技术对原始负荷曲线进行降维,采用最小二乘法确定降维数目以及改进熵权法配置权重,最后采用加权模糊 C 均值聚类算法进行聚类。通过本文算例可以得出以下结论:1)该方法用于负荷曲线聚类在总体效率、聚类质量、鲁棒性等方面具有一定的优越性,均优于传统方法,具有一定的参考价值。2)采用 MDS 降维方法,使降维
26、后用户负荷曲线之间的距离维持了原有高维空间的相应距离,从而使降维后的负荷曲线能够保持原有的重要特性,是对聚类质量的潜在提升。3)本文采用改进熵权法来配置 3 个指标权重,避免了传统熵权法计算带来的误差,在一定程度上保证了聚类结果的客观性与准确性。选用加权模糊聚类算法,在聚类过程中自适应配置各项指标的权重,对聚类的准确度有了更进一步的提升。本文提出基于多维标尺降维聚类算法,有助于掌握用户的用电特征,对用户用电异常检测、电网需求侧响应等方面具有实际的参考意义,如何将该方法在实际中应用也是本文下一步研究的重点。此外,是否有其它优化算法对于本文降维方法的改进也是本文下一阶段研究的内容之一。参考文献:1
27、 程江洲,何艳,鲍刚,等.基于 CK-means 算法的用户用电负荷聚类分析J.计算机仿真,2021,(7):1-6.2 陈菲,张美霞.基于多层聚类的需求侧用户负荷形态分析方法J.水电能源科学,2018,36(3):215-218.3 陈烨,吴浩,史俊祎,等.奇异值分解方法在日负荷曲线降维聚类分析中的应用J.电力系统自动化,2018,42(3):105-111.4 宋军英,崔益伟,李欣然,等.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法J.电力系统自动化,2020,44(15):87-94.(下转第 294 页)701式中,aj表示平均深度,aji是任意测量点的深松深度,nj代表测点数,
28、Sj描述标准差,Vj与 Uj分别是变异系数与稳定性系数。不同入土深度下,上述指标的变化情况如表 3 所示。表 3 不同入土深度的指标变化表入土深度/mm深松深度/mm深度标准差/mm变异系数/%稳定系数/%5020010.22.1496.51002003.50.2499.81502006.43.0197.22002008.13.2594.1 由表 3 可知,当前铲的入土深度为 100mm 时,标准差、变异系数最小,稳定系数最高。这表明 100mm 是最佳入土深度,此时深松稳定性较强。这是因为土壤自身属于非均质的,且自重应力会随着入土深度的加深而提高,当超过100mm 时,铲尖容易与坚硬石块发生
29、碰撞,因不能有效克服石块的自重应力,深松铲会向上弹起,造成波动较大,降低稳定性。经过上述仿真,获取了入土深度对土壤破坏轮廓的影响规律,并确定最佳入土深度,为提高深松操作性能提供理论依据。5 结论土壤介质具有复杂、高度非线性等特征,本文将光滑粒子流体动力学与有限元算法相结合,构建深松铲破坏土壤的仿真模型。通过该模型能够得出随着入土深度的加深,土壤破坏轮廓逐渐增大,同时确定了最佳入土深度。但是本次仿真利用的土壤属于原状土,内部的某些因素可能对土壤性质造成影响,导致实验存在一定误差。在今后研究中,需对土壤样本做预处理,确定所有因素对指标产生的影响,使获得的结果误差更小。参考文献:1 马跃进,王安,赵
30、建国,等.基于离散元法的凸圆刃式深松铲减阻效果仿真分析与试验J.农业工程学报,2019,35(3):16-23.2 刘明财,苏继龙.基于南方红壤耕地气压深松铲的设计与深松仿真分析J.中国农业大学学报,2019,24(4):119-123.3 丁启朔,李杨,BELAL Eisa Adam,等.基于田间摄像的多参数水稻土深松扰动行为与效应研究J.农业机械学报,2019,50(10):44-55.4屈通,李霞,王维新,等.基于流体力学与离散元法的深松铲气动分析J.农机化研究,2019,41(1):34-39.5 杨秋足,徐绯,王璐,等.一种基于黎曼解处理大密度比多相流SPH 的改进算法J.力学学报,
31、2019,51(3):730-742.6 王万宁,强小嫚,刘浩,李文兴,孙景生.深松耕作对土壤物理性状和入渗性能的影响J.排灌机械工程学报,2019,37(11):998-1004,1012.7 李健,郭颖杰,王景立.苏打盐碱地深松铲阻力测量J.吉林农业大学学报,2020,42(5):587-590.8 熊奇,王沐雪,黄浩,等.复杂地质情况下接地极土壤模型建立及研 究 J.中 国 电 机 工 程 学 报,2020,40(7):2269-2277,2405.9 郑君亮,刘隽.基于 CDEGS 系统的土壤结构参数及接地体仿真分析J.气象科技,2019,47(2):349-354.作者简介张志军(1
32、973-),男(汉族),江西新干人,博士,副教授,主要从事工业水处理技术、固体废物处理与处置。高奕珏(1996-),女(汉族),江苏苏州人,硕士研究生,主要从事环境化学研究。(上接第 107 页)5 Yang L.Alignment of Overlapping Locally Scaled Patches for Mul-tidimensional Scaling and Dimensionality ReductionJ.in IEEETransactions on Pattern Analysis and Machine Intelligence,March2008,30(3):438-4506 徐毅,吴鸣,李广玮,等.基于多维标尺的日负荷曲线聚类分析J/OL.电测与仪表,2021-04-12:1-8.7 耿嘉艺,钱雪忠,周世兵.新模糊聚类有效性指标J.计算机应用研究,2019,36(4):1001-1005.8 刘思,李林芝,吴浩,等.基于特性指标降维的日负荷曲线聚类分析J.电网技术,2016,40(3):797-803.作者简介杨 邓(1994-),男(汉族),河南南阳人,硕士研究生,主要研究领域为智能电网。杨俊杰(1977-),男(汉族),福建漳浦人,教授,硕士研究生导师,主要研究领域为智能电网、变电站设备远程状态监测、电力通信技术等。492