基于改进K-means聚类和皮尔逊相关系数户变关系异常诊断

2024-03-21 03:17周纲黄瑞刘度度张芝敏胡军华高云鹏
电测与仪表 2024年3期
关键词:总表皮尔逊台区

周纲,黄瑞,3,刘度度,张芝敏,胡军华,高云鹏

(1.国网湖南省电力有限公司, 长沙 410004; 2.智能电气量测与应用技术湖南省重点实验室, 长沙 410004; 3.湖南大学, 长沙 410082)

0 引 言

随着电网建设的快速发展,包含海量数据的用电信息采集系统不仅可直接反映配电网的运行状况,且能间接反映配电网的拓扑关系[1]。现有配电网拓扑结构校验主要包括:线变关系校验[2-3]、馈线拓扑校验[4]、户变关系及相位校验[5-6]、线户关系校验[7]。正确的低压配电网拓扑,尤其正确的户变关系是当前配电网管理精细化和降耗减损的基础[8]。然而存在部分台区线路临时改变使户变关系档案更新不及时或记录错误等原因,导致用户进线端和集中器归属关系记录不准确,户变关系与实际不符,造成台区线损计算时出现异常情况[9]。因此,台区户变关系的准确诊断与分析对当前配电网的精益化管理具有重要意义[10]。

现行校验台区户变关系主要有人工专用设备现场识别和在线自动识别两种方式[11-12]。人工方式需安排工作人员至现场识别,识别效率低、成本高[13]。数据挖掘及人工智能技术日趋成熟[14-15],同时用电信息采集系统愈加完善,合理利用系统大数据可有效诊断台区户变关系异常问题[16]。据此文献[17]采用基于改进皮尔逊相关系数和KNN算法校验低压配电网拓扑;文献[18]构建低压配电网拓扑结构的知识图谱,对低压配电网信息系统中的户变关系进行辨识;文献[19]基于台区历史销售数据,通过数据驱动的优化算法建立用户-变压器验证模型;文献[20]提出电压剖面分析方法,检测变压器邻域内连接错误的用户;文献[21]基于电压数据和分布相似性,分析用户-变压器连接关系,以上方法主要针对少用户台区中出现异常用户情况,但无法实现多用户台区和多个异常用户情况诊断与分析。

为准确提取多个相邻台区异常用户间特征,本文提出基于主成分分析(PCA)改进K-means聚类算法降低输入数据维度,提取电压数据特征得到不同特征异常用户并作为待检测用户,建立改进皮尔逊相关系数算法分析待检测用户,诊断多个异常用户分别所属正确台区,据此提出基于改进K-means聚类和改进皮尔逊相关系数的户变关系异常诊断方法。最后采用实际算例分析验证本文提出方法在识别同一台区一个及多个异常用户、不同台区多个异常用户各情况下的有效性和准确性。

1 户变关系异常形式分析

目前国内低压台区户变关系错误主要形式为主站系统中记录的用户档案与实际信息不相符,且通常把某个台区用户错误挂接至相邻台区,或把某个馈线变压器错误挂接至相邻馈线,该情况会影响正确的户变关系,阻碍正常线损计算。若将实际属于台区A的用户1档案信息错归为台区B所有,则线损计算时将造成台区A线损偏小,而台区B线损偏大结果发生。

在低压配电网中,由于各处负荷的不确定性,电压通常也随之波动。电气距离较近负荷,其电压波动曲线较相似,而电气距离较远负荷其电压波动曲线相似度较低。因此,可选取用户电压曲线相似性作为台区户变关系异常诊断的依据。某台区其中137个用户电表电压值和相邻台区3个用户的电压值如图1所示。

图1 用户电表电压波动曲线图

由图1可知,同一台区用户电表电压数据波动相似性较高,多个异常用户的电压波动与该台区正确用户的电压波动曲线相似性较低,可作为户变关系异常诊断的依据,但仅凭电压波动曲线图无法准确识别出台区中的异常用户,故可采用电压相似性的定量分析实现对户变关系的正确识别。

2 改进K-means聚类算法

2.1 主成分分析

通常台区用户电表电压数据为一天24小时,每隔1小时采集一次,对于数据维度为24维的高维数据,传统聚类算法将面临高维数据包含海量冗余、不相干信息问题,直接对高维数据聚类极大降低性能,聚类算法难以实现高稳定性。因此,本文采用PCA对原始数据进行降维处理。

基于PCA将p维电压数据特征在m维上体现,该m维数据信息也被称为主成分,为在原有p维电压数据特征上构造出m维新特征,对台区n个用户电表p维电压数据有:

(1)

通过PCA得出的主成分之间互不相关,故计算电压数据相关系数为:

(2)

由式(2)可得电压数据相关系数矩阵为:

(3)

式中rij(i,j=1,2,…,p)为台区电压数据xi、xj的相关系数,rij=rji。

根据式(3)解特征方程,有:

|λI-R|=0

(4)

根据数值大小得特征值λ1≥λ2≥…≥λp≥0,同理可得对应于特征值λi的特征向量ei(i=1,2,…,p)。

根据主成分贡献率法(CPV)确定主成分个数m,计算各主成分的贡献率CPVi与累计贡献率CPVa分别为:

(5)

(6)

式中CPVi为第i个主成分的贡献率;λm为第m(m≤p)个主成分所对应的特征值;CPVa为控制限。

通过式(5)和式(6)计算包含原始电压数据绝大部分信息的主成分个数m,用式(1)中原始电压数据矩阵X的m个特征向量作线性组合得到主成分,则有:

(7)

式中zij(i=1,2,…,n,j=1,2,…,m)为台区用户电表电压数据第i个样本第j个主成分。

2.2 改进K-means聚类

相同台区用户电压数据波动相似性使其具有相同特征,据此可根据这些特征检测出异常用户。K-means聚类根据迭代理论,求出最大迭代步数或使得聚类误差函数收敛得到聚类中心,其为无监督学习算法,适用于检测台区中异常用户,但存在随机选取其初始聚类中心问题,不合适选取会极大影响最终聚类结果。因此,本文初始聚类中心选取不是随机选取,而是根据数据维度的最大和最小值。

基于尽可能得到相互距离远的初始聚类中心原则,选取初始聚类中心改进K-means算法,由此避免出现初始聚类中心选择错误的问题。

对于降维电压数据选取k个样本点作为k个初始聚类中心有:

μr=ma(i)+(mi(i)-ma(i))+rand(),r=1,2,…,k

(8)

式中ma为每一维最大数,mi为每一维最小数。

针对电压中每个样本数据,分别计算其到已有最近聚类中心欧式距离为:

(9)

式中zij为降维后电压数据;μr为初始聚类中心。

由式(9)所求距离值越大表示该样本被选取作为下一次聚类中心的概率越大,样本数据被分别归为最近聚类中心类别后得到k个簇,计算样本被选取作为聚类中心的概率,可得:

(10)

式中D(zij)为样本到聚类中心的距离。

聚类分析台区用户电表降维后电压数据,如部分数据通过PCA得到2维数据为A(0.1,0.1),B(0.2,0.2),C(0.2,0),D(0.4,0.6),E(0.5,0.6),F(0.5,0.5),G(0.6,0.5),并在首次聚类中选择C1(0.2,0.3),C2(0.5,0.3)两点作为第1个和第2个聚类中心如图2所示。

图2 电压数据聚类中心选取图

由图2可见,计算每一簇中其他电压数据样本与该簇当前已有最近聚类中心距离D(zij),以及各簇中每个电压数据样本被选取作为下一个聚类中心的概率P(zij)分别如表1和表2所示。

表1 中心点1聚类距离与概率

表2 中心点2聚类距离与概率

由表1可见,对于第一簇数据A点被选为下一个聚类中心的概率最大,对于第二簇数据D点被选为下一个聚类中心的概率最大。由图2可见,A,D分别为距离初始聚类中心C1和C2点最远两点。

由式(9)求得每个样本与当前最近一个聚类中心的距离并选取最大值,基于相互距离尽可能远原则选取该样本为该簇新聚类中心点,故可计算各簇下一个聚类中心为:

μr=argmax|D(zij)|

(11)

式中μr为各簇更新的聚类中心;max|D(zij)|为每个样本与当前最近一个聚类中心的最大距离。

重复式(9)和(11)不断移动聚类中心直至聚类误差函数收敛或达到最大迭代步数,平方误差SSE函数为:

(12)

根据式(12)直至平方误差SSE收敛或达到最大步数,选出k个聚类中心[μ1,μ2…,μk],并分别实现以μr为聚类中心的台区用户电表电压数据聚类求得台区内异常用户。

3 改进皮尔逊相关系数法

通过上述改进K-means聚类分析台区用户电表电压数据得到台区内异常用户,基于GIS系统找出台区相邻台区并获得电压数据。由于现有关于皮尔逊相关系数适用于两个变量间的线性相关性分析,可得出用户电表电压数据间相关程度,故本文采用改进皮尔逊相关系数法诊断出待检测用户所属台区。

皮尔逊相关系数用来度量两个电压数据X与Y之间的相互关系,可度量两个变量线性相关的强弱,其总体相关系数为:

(13)

式中μX、μY为期望值;σX、σY为总体标准差;cov(X,Y)为协方差。

式(13)对于样本的皮尔逊相关系数同样可用,计算电压样本相关系数为:

(14)

皮尔逊相关系数因两个变量的位置和尺度的变化并不会引起该系数的改变,即把X移动到a+bX和把Y移动到c+dY,其中a、b、c和d是常数,对两个变量间相关系数毫无影响,且对于总体以及样本皮尔逊相关系数公式同时成立,由此可得出更一般的线性变换则会改变相关系数。

(15)

(16)

(17)

(18)

根据两个电压数据X与Y间期望变换公式为:

E[(X-E(X))(Y-E(Y))]=E(XY)-

E(X)E(Y)

(19)

可计算总体相关系数为:

(20)

式中ρX,Y为总体皮尔逊相关系数;E(X)、E(Y)为电压数据X、Y的期望值。

同理,由式(19)计算电压数据样本皮尔逊相关系数可得:

(21)

皮尔逊相关系数为|rx,y|≤1,rx,y大于零表示两者为正相关方向,小于零表示为负相关方向,评价皮尔逊相关系数的标准如表3所示。

表3 皮尔逊相关系数关联度标准

由表3可见,皮尔逊相关系数取值决定两者相关程度,但实际应用中无法设定参考值去判断某用户是否属于某台区。通过上述聚类算法得到某台区中异常用户,由于该台区及邻近几个台区用户较多,计算待检测用户与各个台区间的皮尔逊相关系数工作量巨大,故计算待检测用户与几个台区总表间的皮尔逊相关系数,通过选取最大相关系数改进皮尔逊相关系数法,即相关系数最大者对应台区为待检测用户所属正确台区。本文所使用的改进算法可有效避免皮尔逊相关系数参考值的选取,只需对待检测用户与各个台区总表间的皮尔逊相关系数进行大小排序,相关系数最大者即为所求台区。

4 算例分析

本文使用数据为某个台区其中137个用户的每24个小时每隔1小时采集的电压数据。先判断出异常用户,对于需校验用户,基于GIS系统的实际数据和配电网规划设计技术导则剪辑获取相邻台区总表电压数据,诊断待校验用户所属正确台区,分别采用以下各种情况对本文提出算法进行验证。

4.1 1台区1用户分析

首先针对该台区相邻1个台区中的1个用户错接入该台区的情况进行仿真和分析,将2台区1用户加入1台区中,并对该用户进行异常诊断,找出该用户所属正确台区,计算待检测用户与5个台区总表间的皮尔逊相关系数如图3所示。

图3 1台区1用户异常诊断

由图3可见,该用户与2台区总表间的皮尔逊相关系数为0.991 0,在5个台区中为最大值,根据相关系数最大者所对应台区即为待检测用户所属的正确台区,表明该用户属于2台区,与真实结果相同,由此验证本文算法在相邻1个台区中1个用户错接入该台区情况下的准确性和可行性。

4.2 1台区n用户分析

为验证本文算法在1个台区多个用户错接入其他台区情况下的准确性和可行性,针对该台区相邻1个台区中的7个用户错接入该台区的情况进行仿真和分析,将3台区7个用户加入1台区中,并进行诊断分析,计算待检测7个用户与5个台区总表间的皮尔逊相关系数如图4所示。

图4 1台区n用户异常诊断

计算待检测7个用户与5个台区总表间的皮尔逊相关系数,并将皮尔逊相关系数所对应台区与实际台区作比较结果如表4所示。

表4 皮尔逊相关系数测试结果

由表4可见,可直观得出7个待检测用户与台区总表间最大皮尔逊相关系数对应的台区均为3台区,实际对应台区也均属于3台区,由此可见本文算法在相邻1个台区中n个用户错接入该台区情况下的具有较高的准确度性。

4.3 n台区1用户分析

为验证本文算法在多个台区用户错接入其他台区情况下的准确性和可行性,针对该台区相邻2个台区中的各1个用户错接入该台区的情况进行仿真和分析,分别将2台区1个用户和3台区1个用户加入1台区,并进行诊断分析,计算待检测2个用户与5个台区总表间的皮尔逊相关系数如图5所示。

图5 n台区1用户异常诊断

由图5可知,2个五边形顶点作为待检测1、2用户电表电压与5个台区总表电压间的皮尔逊相关系数,待检测用户1仅与2台区总表间的皮尔逊相关系数超过0.990 0,待检测用户2仅与3台区总表间的皮尔逊相关系数超过0.980 0,根据相关系数最大者所对应的台区即为待检测用户所属的正确台区,表明2个待检测用户分别属于2台区、3台区,与真实结果相同,由此可验证本文提出算法在相邻n个台区中1个用户错接入该台区情况下的准确性和有效性。

4.4 n台区n用户分析

为验证本文算法在多个台区多个用户错接入其他台区情况下的准确性和可行性,针对该台区相邻2个台区中各7个用户错接入该台区的情况进行仿真和分析,分别将2台区7个用户和3台区7个用户加入1台区,并进行诊断分析,计算待检测14个用户与5个台区总表之间的皮尔逊相关系数如图6所示。

图6 n台区n用户异常诊断

由图6可见,用户1到用户7与台区3皮尔逊相关系数最大,用户8、用户10到用户14与台区2皮尔逊相关系数最大,用户9与台区1皮尔逊相关系数最大。因此,除用户9外,1到7个待检测用户均属于3台区,8到14个待检测用户均属于2台区。表明除用户9外,其余待检测用户诊断结果与真实结果相同,又因聚类结果中用户9已被识别为1台区异常用户,故从1台区排除,且用户9与台区2总表皮尔逊相关系数大于其他台区,故综合判断可得出用户9所属正确台区。由此可知本文算法在相邻n个台区中n个用户错接入该台区情况下仍有较高的准确性。

4.5 数据长度影响分析

为分析用户电能表电压数据长度对识别结果的影响,本文提出异常用户识别正确率指标,以反映台区户变关系识别准确性,该指标定义为诊断出异常用户数与待诊断总用户数比值,数值越大表明识别结果越准确,电压数据长度定义为用户电压时间维度,选取一天中2个时刻的电压值到24个时刻的电压值情况下,本文算法的识别正确率如图7所示。

图7 数据长度影响分析图

由图7可见,当电压数据长度低于10维时,本文提出算法识别正确率随着电压数据长度的增加,呈现先急剧上升后平缓上升的趋势,并在11维逐渐收敛,稳定在90%以上的正确率,表明电压数据长度越大,本文提出算法对户变关系异常诊断结果越准确。

4.6 与常用算法比较

为比较不同户变关系异常诊断的方法,选取改进灰色关联度分析法、BP神经网络法、离群点检测法LOF(local outlier factor)、结合平均密度改进LOF异常点检测法以及本文提出的改进皮尔逊相关系数法进行仿真比较。以多个台区多个用户错接入其他台区为例,将该台区相邻2个台区中的各7个用户放入该台区进行诊断识别,其仿真对比如表5所示。

表5 与常用算法诊断结果对比

由表5可见,5种检测方法异常诊断结果不同,其中改进灰色关联度分析法异常用户诊断数为7,正确识别率为50%;BP神经网络法识别异常用户数为9,正确识别率为64.29%;离群点检测法LOF异常用户诊断数为8,异常用户总数为10,正确识别率为80%;结合平均密度改进LOF异常点检测法识别异常用户数为8,异常用户总数为9,正确识别率为88.9%,本文提出算法识别异常用户数为13,异常用户总数为14,正确识别率为92.86%,综合判断可得到另外一个异常用户所属正确台区。因此,本文提出的改进K-means聚类和皮尔逊相关系数户变关系异常诊断算法相比常用检测方法具有更高的诊断准确率。

5 结束语

针对多相邻台区户变关系异常用户间特征提取困难问题,本文建立基于改进K-means聚类和皮尔逊相关系数户变关系异常诊断算法,实际算例分析结果表明:通过主成分分析对GIS系统获取台区总表和用户电表电压数据实现降维,高效实现电压数据间的特征信息挖掘,建立改进K-means聚类提取电压数据特征,选取更优聚类中心得到不同特征异常用户并作为待检测用户,建立改进皮尔逊相关系数算法有效避免皮尔逊相关系数参考值的选取,提高检测精度;相较于传统检测方法,本文提出算法在识别同一台区一个及多个异常用户、不同台区多个异常用户情况下均能有效实现对异常用户的准确检测与分析。本文提出的基于改进K-means聚类和改进皮尔逊相关系数的户变关系异常诊断方法为台区多相邻台区异常用户诊断提供了一种新的解决方案。

猜你喜欢
总表皮尔逊台区
现代统计学之父:卡尔·皮尔逊
现代统计学之父:卡尔·皮尔逊
Excel在水文学教学中的应用
卡方分布的探源
2016年西藏自治区一般公共预算收支决算总表
2016年宁夏回族自治区一般公共预算收支决算总表
2016年浙江省一般公共预算收支决算总表
降低台区实时线损整治工作方法
三合一集中器作为台区线损考核表计的探讨
多功能低压台区识别设备的研制