基于多维负荷特性挖掘的电力特殊用户用电行为分析

2024-03-11 01:20吴昀烔赵健宣羿孙智卿徐港军
电力建设 2024年3期
关键词:级联特征提取用电

吴昀烔,赵健,宣羿,孙智卿,徐港军

(1. 上海电力大学电气工程学院,上海市 200090;2. 国网杭州供电公司,杭州市310014)

0 引 言

随着智能电网建设的飞速发展,海量多元的电力数据得以实时获取,深入挖掘数据间蕴含的用电特征信息有助于分析用户用电行为,掌握用户类别,促进社会发展与相关政策的制定,从而为政府科学治理社会问题提供理论支撑[1-3]。由于我国人口老龄化程度不断加深,以独居老人为代表的电力特殊用户数量激增,深度挖掘独居老人典型用电行为特征,有助于实现独居老人的辨识,为电力公司开展个性化服务提供辅助决策,成为电力公司服务社会,促进政企间友好互通的重要途径[4-5]。目前,通过分析电力用户用电行为辨识用户类型方法主要可以分为无监督学习与有监督学习法[6],这些方法为辨识独居老人提供了参考。无监督学习主要依赖于聚类算法对用户进行分类[7],主要包括K-means算法[8-10]、谱聚类分析法[11-12]、模糊C均值聚类法[13]等。但利用聚类算法把用电行为相似的用户划分为同一簇,却不能对簇进行标识,无法适用于识别某一特定群体[14-15]。

有监督学习法是通过构建分类器学习特征与类别标签间的对映关系,实现对用户的分类[16-17],主要包括用电特征提取与分类模型构建。典型用电特征提取方法有人工特征提取法[18-19]、降维算法[20-22]等。而人工特征提取受人为主观因素影响,难以客观描述用户的用电特性,降维算法虽具有较强的特征提取能力,却无法自主增强对重要特征的学习。因此仅从单一角度对用户用电特征进行提取,容易造成有效信息的丢失。在构建分类模型方面,文献[23-24]分别基于支持向量机(support vector machines, SVM)、决策树设计分类模型对特征进行学习。以上分类器均为浅层学习模型,识别效果有待提高。文献[25-29]利用深度学习网络对用电特征向量进行识别,其识别效果相较于浅层学习模型得到提高。由于在实际识别独居老人过程中,其数量远少于其他类型用户,且不同类型用户的用电特征多样,均对分类模型学习其用电特征造成干扰,导致独居老人识别困难[30-31]。

针对以上问题,本文提出一种基于多维负荷特性挖掘的电力特殊用户用电行为分析方法。首先,通过分析独居与非独居老人典型负荷曲线,分别构建负荷特性指标与消费特征指标,并基于互信息值对指标增添权重以降低主观因素对特征指标的影响,提高特征指标的可靠性;同时利用卷积块注意力机制对卷积神经网络(convolutional neural network, CNN)架构进行优化,得到能自主选择重要信息的卷积块注意神经网络特征提取模型(convolutional neural network convolutional block attention module, CNN-CBAM)。通过特征指标与CNN-CBAM的构建,获取可表征两类居民用电行为的多维负荷特征向量。其次,构建β-级联森林识别模型对上述特征向量进行自适应表征学习,有效避免因样本数量不足导致模型过拟合问题,并针对样本不平衡问题,引入敏感因子β以修正识别模型对独居老人样本的误判,该模型在样本规模较小且存在样本不平衡的数据上具有良好的识别性能。最后,在实现独居老人识别后,针对其可能存在离家、突发疾病等状况进行用电行为监测,并在浙江省某小区中验证本文方法的可行性。

1 居民负荷特性分析

1.1 初始用电行为特征指标建立

受生活习惯、家庭情况等因素影响,不同居民群体呈现出差异化用电行为特征,故对独居和非独居老人2类居民典型负荷曲线进行分析,有助于掌握2类居民不同的用电行为习惯,为构建用电行为特征指标提供依据。2类居民典型日负荷曲线如图1所示。

图1 2类居民典型日负荷曲线Fig.1 Typical daily load curves for two types of residents

由图1可知,2类居民具有相似的日负荷曲线,但相较于独居老人,非独居老人的夜晚用电高峰出现较晚,存在时间差Δt,且其用电量远高于白天用电量,昼夜波动较大。

2类居民周用电分布如图2所示。考虑休息日对居民用电水平的影响,对2类居民的周用电分布情况进行分析可知,非独居老人居民休息日用电量远大于工作日的用电量,受休息日影响较大,而独居老人生活习惯较为规律且用电量水平较低。

基于以上对2类居民典型负荷曲线分析,本文建立用电行为特征指标集T0={T1,T2,T3,T4,T5},其中各特征指标如表1所示。

表1 用电行为特征指标Table 1 Characteristic index of electricity use behavior

表1中:Eac表示第a周星期c的用电量;Eiday、Einight分别表示第i天白天与夜晚用电量;Eimax、Eimin、Eiav分别表示第i天用电量最大、最小与平均用电量;W、D分别表示总周数与总天数;N1和N0分别表示通过线上、线下方式缴纳电费的次数。

1.2 动态特征指标集建立

为降低特征指标受主观因素的影响,利用互信息值分别对特征指标与类别标签的贡献度进行计算。首先对特征进行归一化,均匀离散各变量区间,得到第u个特征Tu与类别标签y间的互信息值为:

(1)

式中:n、nv、nw、nvw分别表示居民用户总样本数、特征Tu落在第v个区间的样本数、样本中属于第w个类别的数量以及Tu落在第v个区间且属于类别w的样本数;Nu为特征Tu被划分的区间个数;Ny表示居民总类别数,由于本文属于二分类问题,仅存在独居与非独居老人居民2种类别,故在本文中Ny取2。

然后,根据式(1)求解T0中各特征指标与类别标签y间的互信息值,得到总互信息值M(T,y)。基于互信息值确定各特征指标对应的动态权重γu。

(2)

(3)

对用电行为特征指标集T0添加动态权重,得到动态特征指标集T={γ1T1,γ2T2,γ3T3,γ4T4,γ5T5}。

2 基于多维负荷特征提取模型

2.1 CBAM基本原理

CBAM是一种简单高效,能够嵌入任一CNN网络架构中进行端到端训练的注意力机制模块。该模块由通道注意力与空间注意力两部分组成,具体结构如图3所示。

图3 CBAM结构Fig.3 CBAM structure

当给定输入数据F∈RG×K×C时,通道注意力模块根据式(4)聚合输入数据的空间信息,得到通道注意力特征F1,然后再次经过空间注意力模块,以特征的关键位置为目标对F1的通道进行压缩,得到最终特征F2,计算方法如式(5)所示。

F1={α{MLP[AvgPool(F)]+
MLP[MaxPool(F)]}}⊗F

(4)

F2={α{f3×3[AvgPool(F1);
MaxPool(F1)]}}⊗F1

(5)

式中:α代表激活函数sigmoid;MLP代表多层感知器;AvgPool(·)与MaxPool(·)分别表示平均池化与最大池化操作;为逐个元素相乘;f3×3表示卷积核为3×3的卷积操作。

特征F2相较于输入数据F,在保持特征维度的同时,强调了F中的重要特征。故在CNN添加CBAM模块,可以实现对输入数据重要特征的自主学习。

2.2 CNN-CBAN特征提取模型

CNN-CBAM学习目标是获取能表征2类居民用电行为的时序特征向量,选取4个卷积层、2个CBAM层、3个池化层以及全连接层构建CNN-CBAM特征提取模型。

1)模型的输入数据。将居民的负荷数据集X=[X1,X2,…,Xn]T与对应的类别标签向量Y=[y1,y2,…,yn]T作为模型的输入数据。其中每位居民负荷数据矩阵为:

(6)

式中:p表示采样时间;q表示每个时间点对应的特征值;Xs表示第s个居民样本。

2)进行特征提取。特征提取部分由卷积层、CBAM层与池化层交替堆叠组成。以样本Xs为例,首先根据式(7)对Xs进行卷积操作,形成初始用电特征F∈RG×K×C;其次为增强模型对重要特征的学习,根据式(4)、(5)对用电特征F∈RG×K×C进行空间与通道的改造,得到最终特征F2∈RG×K×C;并通过最大池化操作压缩特征图,降低模型复杂度。

(7)

式中:Fmj表示卷积操作后提取的特征图中第m行、第j列的特征值;kbd表示卷积核;xm+b-1,j+d-1表示Xs第m+b-1行、第j+d-1列元素;f代表激活函数ReLU。

3)获取深层负荷特征向量。在完成多层特征提取后,通过全连接层输出提取的负荷特征向量Q。

本文利用Adam优化算法对CNN-CBAM特征提取模型进行有监督训练,其中损失函数为:

(8)

2.3 建立多维负荷特征集

将动态特征指标集T与深层用电特征向量Q进行拼接,得到多维负荷特征集。

Fx=[(T1,y1),(T2,y2),…,(Tn,yn)]T

(9)

Tn=[Q1,Q2,…,Qr,T]

(10)

式中:Tn表示居民n的用电特征向量;Q1,…,Qr表示隐特征向量。

3 基于β-级联森林的独居老人识别模型

本节首先基于β-级联森林构建独居老人识别模型,其具体结构如图4所示。其次,通过构建用电异常指标对独居老人的日常用电行为进行监测,若发现存在用电异常可及时通知人员上门排查。

图4 独居老人识别模型结构Fig.4 Structure of identification model for elderly living alone

3.1 基于β-级联森林的识别模型

基于β-级联森林的识别模型在借鉴深度神经网络超强特征表征能力的同时,摒弃复杂繁琐的网络架构,通过逐层串联集成决策树森林实现对输入数据的多层表征学习。

决策树森林由多个决策树组成,在识别独居老人过程中,每个决策树森林均对应得到一个是/否为独居老人的二维概率向量P=[P0,P1]。考虑到独居老人样本远少于非独居老人样本数量,本文基于样本不平衡度设定了敏感因子。假设输入数据集Fx中包含F0个独居老人样本、F1个非独居老人样本,依据式(11)构建敏感因子,则每个基分类器生成的概率向量如式(12)、(13)所示。

(11)

(12)

(13)

式中:β0、β1表示敏感因子;P0、P1分别表示是、否为独居老人的概率;t0、t1分别表示分类结果是、否为独居老人的决策树个数。

本文选择2个随机森林与2个完全随机森林作为每级联层的基分类器,故每级联层得到4×2维增强特征向量U={P1,P2,P3,P4}。为了避免出现梯度消失或梯度爆炸的问题,本文在传递用电特征信息时添加了跳跃连接,即本级联层输出的增强特征向量不仅作为下一级联层的输入,还要输入到下下级联层,故每级联层的输入数据为Glx={Ul-2,Ul-1,Fx} (l=1,2,…)。其中,l表示级联层数。在训练过程中,每扩展一个级联层均根据式(14)在验证集上计算模型精度,直至Anew≤A时扩展结束,获取分类结果,得到完整识别模型。

(14)

式中:Ntest、Ntrue分别表示验证集中的样本个数以及正确分类的个数。

3.2 独居老人用电行为监测

为避免独居在家的老人遭遇突发疾病造成严重安全事故,本节针对其日常用电行为进行监测。利用识别模型对某小区内用户进行筛选,获取独居老人家庭,构建判断居民用电异常的指标:

(15)

(16)

式中:E(t)、F(t)分别表示各个时间点的正常用电量和方差;Es(t)表示用户s在t时刻的用电量;N表示独居老人数量。利用式(17)处理每组用电数据,将得到的数据与正常用电量作差,当偏差超过3倍方差线时,视作用电异常,向系统发送告警信号,通知小区人员进行入户查看。

(17)

式中:epq表示采用其前后2个时刻的数据与本身进行均值滤波后的用电数据;x(p-1)q、xpq、x(p+1)q分别表示前一时刻、原始与后一时刻用电数据。

3.3 独居老人识别与监测流程

完整识别模型包括独居老人识别模型的建立、在线识别与监测两部分,实现流程如图5所示。

4 算例分析

本文通过居民实际负荷数据进行测试以验证本文所提方法的有效性与适用性。使用的数据包括居民电费缴纳情况与96点的有功功率、电压、电流等多维负荷数据,具体情况如下所示:

1)选用浙江省某地区4 626位居民用户2019年1月1日—2019年11月30日的用电数据进行验证,其中包含1 598户类别标签为0的独居老人居民与3 028户类别标签为1的非独居老人居民。

2)在浙江省杭州市某小区进行识别与在线监测,该小区有12栋居民楼,共1 324位居民用户。

4.1 数据预处理与评价指标

由于原始数据集中存在数据缺失、重复等问题,需要对数据集进行清洗与修正。本文采用均值法对单个缺失数据进行填充,如式(18)所示,直接剔除多个连续数值为空的数据,并根据式(19)对原始数据进行归一化处理,将处理后的数据按照4∶1的划分训练集与测试集,便于训练评估模型。

(18)

(19)

式中:g(xt)为填充值;xt为用户在t时刻的量测值;f(x)为归一化后的数据;maxx和minx分别为样本数据的最大值与最小值;xNAN为缺失数据。

以类别标签为基准,每户居民识别结果与对应类别标签y,存在以下4种对应关系:

TS:识别结果y=0,类别标签y=0;

FS:识别结果y=0,类别标签y=1:

TU:识别结果y=1,类别标签y=1;

FU:识别结果y=1,类别标签y=0。

鉴于独居老人识别属于典型样本不平衡的分类问题,为了全面合理地评价识别模型性能,本文选择评价指标如下所示:

(20)

(21)

(22)

式中:σIP、σIR分别表示独居老人识别精确率与查全率;σGM表示模型对独居与非独居两类居民识别精确率的综合评估,指标值越大识别性能越好。

4.2 识别结果分析

4.2.1 特征提取

基于互信息值对初始特征指标计算得到各特征指标贡献度占比如图6所示。

图6 各特征指标贡献度占比Fig.6 Contribution ratio of each characteristic index

由图6可知,特征指标对应的权重系数γu为[0.180,0.279,0.142,0.153,0.246],其中昼夜间用电波动对类别标签的贡献度最大,在线缴费意识次之,日负荷率与日均峰谷用电差对类别标签的贡献度差距不大。故最终确立的动态用电特征指标集为T={0.180T1,0.279T2,0.142T3,0.153T4,0.246T5}。

在训练CNN-CBAM时,设定网络初始迭代100次,CNN-CBAM损失曲线如图7所示。由图7可知,当迭代次数为40时该模型的损失值趋于稳定,达到收敛状态。因此本文将迭代次数设定为40。

图7 CNN-CBAM损失曲线Fig.7 CNN-CBAM loss curve

4.2.2 参数灵敏度分析

与其他深度学习模型相比,级联森林具有较好的自适应学习能力,主要参数可以分为结构参数与基分类器参数,其中主要包括级联层扩展规则、基分类器的类别与数量、基分类器中决策树的数量等。本节主要针对基分类器参数进行灵敏度分析,如图8所示。

图8 不同参数下识别准确率Fig.8 Recognition accuracy under different parameters

由图8可知,随着决策树与基分类器数量的增加,识别模型准确率呈现缓慢上升趋势,但整体受参数设置影响较小,具有较好的鲁棒性。本文选用4个基分类器,每个基分类器包含60棵决策树构建识别模型。

4.3 不同特征集的识别效果分析

居民负荷特征集的建立是准确识别独居老人的基础,为验证本特征集的有效性,选用以下3种特征集进行对比分析,对比识别结果如表2所示。

表2 不同特征集识别效果分析Table 2 Recognition effect analysis of different feature sets

1)未计算特征指标贡献度的初始用电行为特征指标集T0。

2)基于CNN-CBAM特征提取模型获取的特征向量Q。

3)结合动态特征指标与CNN-CBAM特征提取模型的多维负荷特征集Fx。

由表2可知,由于初始用电行为特征指标是基于人工经验建立的,并未考虑特征指标的有效性,导致识别准确率不高。利用CNN-CBAM提取的特征向量进行识别虽相较于初始用电特征有所提升,但其效果远不及综合考虑特征指标与神经网络结合的多维负荷特征集。

4.4 不同模型识别性能分析

4.4.1 基于多维负荷特征集的识别性能分析

上文以不同输入特征集为研究对象,证明了本文所构建的多维负荷特征集具有较强的代表性。本节针对采用本文方法得到的用电特征集Fx在使用不同分类方法时的识别效果展开研究,选取了SVM、梯度提升决策树(gradient Boosting decision tree, GBDT)与极端梯度提升(extreme graolient Boosting, XGBoost)三种分类模型进行对比分析。各识别模型的性能对比见表3。根据表3可知,本文所提的方法与其他算法相比,在3个评价指标上均具有最好的表现,独居老人识别精确率达到90.9%,均高于其他识别模型,具有较好的识别性能。

表3 各识别模型的性能对比Table 3 Performance comparison of each recognition model

4.4.2 不同样本规模下模型性能分析

为验证本文方法在小样本规模下的识别性能,选用CNN与本文模型进行对比分析。以10%为步长在原始数据样本中随机等比例抽取独居与非独居老人样本,得到40%、50%等7个不同样本规模的数据集,利用不同规模的样本数据分别对β-级联森林识别模型与CNN进行训练,结果如图9所示。

图9 不同样本规模下不同模型识别准确率Fig.9 The recognition accuracy of different models under different sample sizes

由图9可知,在各个样本规模下,本文提出的β-级联森林识别模型的准确率均高于基于CNN的识别模型。在样本数量较少时,CNN的识别准确率较低,而本文提出的β-级联森林识别模型在小样本规模下仍具有较高的准确率,具有良好的鲁棒性。

4.4.3 不同样本不平衡程度下模型性能分析

在实际识别独居老人过程中,独居老人数量远少于其他类型居民。为进一步验证本识别模型在不同样本不平衡程度下相较于其他模型仍具有较好的识别性能,本文构建了不同的不平衡程度的样本集。首先在原始数据样本中随机等比例抽取独居老人样本与非独居老人样本,此时2类居民样本数量相等。然后依次在剩余非独居老人样本中随机抽取样本,使独居老人样本占比依次降为40%、30%与20%,并选用σIP与σGM指标对模型进行评估,结果如图10所示。

图10 不同样本不平衡程度下模型性能Fig.10 Model performance under different sample imbalance

由图10可知,随着独居老人样本比例逐渐降低,各识别模型的识别性能均有所下降,其中GBDT与XGBoost模型在独居老人占比20%时,识别准确率突然骤降,受样本不平衡程度影响较大,难以运用于实际开展的独居老人识别工作中。SVM模型虽然相较于GBDT与XGBoost识别性能相对稳定,但其识别准确率较低。而本文所构建的识别模型在σGM与σIP指标评价下均有较好的表现,在保证整体识别性能的同时,通过敏感因子增强对独居老人样本用电特征的学习,使得在不同样本不平衡程度下也具有较高的准确率。

4.5 独居老人的在线识别与监测结果

为验证本文所提出识别模型的适用性,以浙江省杭州市某小区为例进行识别。首先,对基于电力公司用电采集系统获取的该小区居民用电数据进行多维负荷特征提取。然后,将其输入识别模型中进行识别,并通过工作人员上门查访对识别结果进行实地验证,可知在12栋居民楼中有71户独居老人被正确识别得到,具体识别结果如图11所示。

图11 识别结果统计Fig.11 Recognition result statistics

考虑独居老人居民可能存在离家、搬迁或突发疾病等异常状况,根据3.2节建立的用电异常指标对实际独居老人居民的日常用电行为进行监测,判断15户居民存在用电异常,现场排查13户居民离家,2户居民存在安全问题,针对存在安全隐患的老人进行救助,规避其用电风险,避免发生严重的安全事故。

5 结 论

本文从电力大数据服务社会民生角度出发,着眼于当前政府依赖人工查访识别独居老人存在高成本且效率较低等问题,提出了一种基于多维负荷特性挖掘的电力特殊用户用电行为分析方法。算例验证表明:

1)结合人工经验与神经网络强大特征提取能力建立的多维负荷特征集能够对2类居民差异化的用电特征进行更加全面的表征。

2)提出的基于β-级联森林的识别模型相较于其他模型能够实现对独居老人精准识别,降低对超参数设置的依赖,具有较好的识别性能与识别稳定性。

3)本文所提出的方法为电力公司辅助政府治理社会问题提供了数据支撑,具有一定的工程应用价值。

猜你喜欢
级联特征提取用电
用电安全
用煤用电用气保障工作的通知
安全用电知识多
用电安全要注意
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
级联LDPC码的STBC-OFDM系统
基于级联MUSIC的面阵中的二维DOA估计算法
基于MED和循环域解调的多故障特征提取
LCL滤波器在6kV级联STATCOM中的应用