声纹信号-图形差分场增强和多头自注意力机制的变压器工作状态辨识方法∗

2024-02-29 10:58张寒熊云唐信王枭

应用声学 2024年1期

关键词：声纹铁芯绕组

张寒熊云唐信王枭

(1 国网湖南超高压变电公司长沙 410000)

(2 变电智能运检国网湖南省电力有限公司实验室长沙 410000)

(3 上海睿深电子科技有限公司上海 200237)

0 引言

电力变压器是输变电设备中的核心设备，其主要用于电压转换和电能分配[1]。变压器结构复杂，在长期运行后不可避免地存在问题，因此其故障率一直居高不下[2]。因此，开展电力变压器故障检测与诊断方法研究，及时有效识别变压器故障，对于保障电网安全、减少经济损失有着重要的意义。

变压器最为常见的故障主要分为以下3 种：绝缘故障、过热故障及机械故障。当设备部件出现故障后，会向外辐射温度、电磁、光学以及振动信号，常规变压器状态检测方法也主要针对上述状态量展开分析，如油色谱检测、红外热成像检测、局放检测等[3-4]。由于电力变压器在运行过程中形成的振动信号会向外辐射为声信号，可作为设备缺陷有效的诊断依据。相比于其他常规检测方法，声学检测凭借其非接触式检测安全、测试简单、无需停电等特点，非常适合于数量众多的变压器设备状态检测，因此也成为了近些年的研究热点[5-6]。

针对于变压器的声学信号检测处理方法主要有：傅里叶变换、小波包变换等，利用上述方法获取设备不同状态下的时频特征以进一步挖掘深层状态特征。钱苏翔等[7]针对变压器绕组故障难以辨识问题，提出了一种基于频率响应法和小波包特征能量提取的变压器故障诊断方法，实验验证了方法的可靠性；耿琪深等[8]提出了一种基于Gammatone倒谱系数和鲸鱼算法优化随机森林的变压器机械故障声诊断方法，对某10 kV 干式变压器正常与典型机械故障下声信号的计算结果表明，该诊断方法能够较好地识别出故障信号，并具有良好的抗噪性能和鲁棒性。尽管基于声纹信号的变压器状态监测方法获得了良好的效果，但目前该方法的特征提取仍以人工为主，需要操作人员具备丰富的声学信号分析及状态监测经验；同时，由于电力变压器应用场景广、应用数量多、运行周期长，采集获得的声纹监测数据往往呈现海量化、多模态化的特征，人工操作将耗费大量时间精力，因此亟需一种智能化的变压器状态在线监测方法[9-10]。

深度学习是一种可靠的智能辨识技术，凭借学习性能优异、适应性强等优势逐渐被应用于机械设备的智能诊断领域。王昕等[11]提出一种基于迁移学习和卷积神经网络的电力设备图像识别方法，并利用实际数据验证了所提方法能够提升学习效率和精度；黄文礼等[12]针对变压器结构复杂、维护成本高等特点，提出一种基于深度学习的变压器故障信号识别算法，并基于实验证明了所提方法的可行性。然而，上述方法仍存在一定不足：常规神经网络难以充分利用时间序列数据的内在特性，可能会造成部分信息的丢失进而使得辨识精度下降。同时常规深度神经网络往往是一个黑箱模型，难以明晰其内部工作原理与辨别逻辑。

近期，Zhang 等提出了一种图形差分场(Motif difference field,MDF)方法[13]，该方法在将一维时域信号转化为二维图像的同时，充分保留了时域信号的时间参量信息与非线性特征，进而在时间序列预测领域得到了应用[14]。但目前在电力设备的状态监测领域还未见文献介绍。

针对上述问题，提出了一种基于MDF 信号增强和多头自注意力机制的变压器工作状态辨识方法。通过搭建10 kV 电力变压器设备的缺陷模拟实验系统，模拟了变压器正常状态、绕组松动状态、铁芯松动状态以及表面放电4 种典型缺陷，采集了相应状态的声纹信号，借助MDF 技术将一维时域信号映射为二维图像，利用多头自注意力机制的Vision Transformer 分类模型实现了电力变压器设备状态的有效辨识，并引入梯度加权类激活映射(Gradient-weighted class activation mapping,Grad-CAM)突出了模型的可解释性。

1 理论介绍

1.1 MDF

MDF 是一种将时间序列转换为图像的方法，具备提高时间序列的可视化和特征提取效果等优势，目前主要应用于时间序列的复杂性测量、动态系统表征等领域[13]。

假设有一离散总点数为N的时域信号y={y1,y2,···,yN}，可定义时域信号y的图像集

式(1)中，d表示为步长，n∈(1,N)表示图像个数，=yi,i=s,s+d,s+2d,···,s+(n-1)·d，s表示为计算的时间窗口长度。

⊙表示哈达玛积[15]，是由旋转180◦得到。由上述公式可知，利用MDF 方法在将一维时间序列映射为二维图谱的同时，可充分保留时间序列的状态特征信息。图1为该方法的实现流程。

1.2 基于多头自注意力机制的Vision Transformer分类算法

在将电力变压器设备的原始时域声纹信号映射为二维图像后，为进一步辨识设备的运行状态，还需选择合适的深度学习网络以实现最终的状态辨识。

Vision Transformer 是一种基于自注意力机制的深度学习模型，其凭借特征提取能力快、特征融合强以及运行效率高等特点被广泛应用于文本分类、图像分类等领域[16-17]。拟以Vision Transformer为基础，通过引入多头自注意力机制[18]增强算法的深层特征感知性能，最终实现不同变压器状态的可靠辨识，其主要实现流程包括以下4个步骤：

(1) 图像数据的序列化处理

首先对原始图像集合进行归一化、缩放等操作，并提取图像集合的特征矩阵；然后划分特征矩阵并将图像块转化为序列化数据，通过展平操作将每个图像块重塑为一维向量，并按照预定义顺序进行编码，得到代表每个图像块的序列化数据，其转换公式如下：

式(7)中，bk,i表示第k个块中的第i个位置，F(·)表示特定的非线性变换函数，vec(·)表示将矩阵展平成向量，W0和pk,i是可学习参数。关于编码方式通常采用字典编码[19]、哈希编码[20]等。

(2) 位置嵌入

采用位置嵌入和Patch嵌入相加的方式引入位置信息，位置嵌入如图2所示，编号0∼8 的方框表示各个位置的位置嵌入，而数字框右侧方框则代表经过线性投影之后的展平向量。

图2 位置嵌入示意Fig.2 Schematic diagram of position embedding

(3) 学习嵌入

对输入的向量进行查询、键、值线性变换，得到相应多头变换向量，并分别进行自注意力计算，将多头的结果拼接得到最终输出。假设输入的向量为x，查询、键、值线性变换的权重矩阵分别为Wq、Wk和Wv，则有变换后的向量分别为

式(9)中，dk为缩放因子，用于缓解点积计算时的梯度消失问题[21]。

对每个头的注意力权重αi与对应的值矩阵Vi进行相乘与拼接操作，可得

式(10)中，Concat(·)表示拼接操作，MA 表示多头自注意力机制，最后再通过一个线性变换得到最终输出。

(4) Transformer编码器

引入Transformer 编码器充分挖掘输入数据集的深层特征信息，将输入集中的每个向量映射到一个更高维度的空间。图3 为Transformer 编码器的基本框架，由图3 可知，Transformer 编码器由交替层的多头自我注意机制和多层感知器组成。同时，在每个子块之前应用标准化块以提升模型鲁棒性、降低复杂度，在每个子块之后应用剩余连接以缓解梯度消失和梯度爆炸问题并加速模型收敛速度。

图3 Transformer 编码器框架示意Fig.3 Schematic diagram of Transformer encoder framework

1.3 基于Grad-CAM的特征可视化

常规深度神经网络通常包含数百个或数千个神经元及其之间复杂的连接和权重关系，这种复杂性使其具有强大的计算和模式匹配能力，但也使其内部的工作机制变得异常复杂，通常难以明晰其内部工作原理与辨别逻辑[22]。基于上述问题，利用实现简单、计算高效等诸多优势的Grad-CAM[23]以突出分类结果的可解释性。

对于任一输入图像x，在利用深度神经网络处理后，可得到预测结果yc以及对应的分类标签c。再利用反向传播算法计算得到梯度张量Ak∈Ru×v，其中下标k表示最后一个卷积层的通道数，R表示张量的秩，上标u和v分别表示图像相邻像素之间的水平和垂直方向上的梯度分量。

对梯度张量Ak进行全局平均池化操作使其沿通道维度进行池化，进而得到一个长度为k的权重向量w∈Rk，具体计算方式为

将权重向量w与卷积层的特征图进行加权求和，得到每个位置的激活值LGrad-CAM(i,j)：

式(12)中，ReLU表示激活函数。在将每个像素点位置上的激活值按照权重进行加权求和后，即可得到一个数值，其表示输入图像中与分类结果最相关的区域，即Grad-CAM的可视化结果。

1.4 基于声纹信号MDF 增强和多头自注意力机制的变压器工作状态辨识流程

由前文可知，MDF 方法能够更好地表征一维时域信号的状态参量，而基于多头自注意力机制的Transformer 分类算法则可实现特征信息的深度挖掘。因此，本文结合两者之间的特点，提出了一种基于MDF 信号增强和多头自注意力机制的变压器工作状态辨识方法，并引入Grad-CAM 突出模型的可解释性。其具体实施步骤如下：

(1) 声纹信号采集：在变压器前方布置声传感器以进行原始声纹时域信号的采集。

(2) 图像映射：利用MDF方法将采集得到的不同工作状态下的变压器声纹信号映射为二维图像，进而建立原始二维图像集合。

(3) 模型训练：将步骤(2)得到的图像集合输入到基于多头自注意力机制的Vision Transformer 分类器中，首先进行特征提取得到特征图，其次对特征图的每个像素点位置进行多头注意操作，并将结果压缩为一个向量，接着通过全连接层进行深层感知与特征组合，最后将得到的特征数据通过SoftMax激活函数层实现图像的分类辨识。

2 实验验证

2.1 实验设置

为验证所提方法的可行性与有效性，以一台型号为SC 800/10 的干式变压器为实验对象进行实验，实验在半消声室进行，其长宽高尺寸为13 m×10 m×7 m，本底噪声为18.6 dB。现场布置如图4 所示，利用集成有112 通道的声学传声器阵列进行测试，其测试优势在于同时输出多组声纹监测数据，在减少测试时间和成本的同时，提升了声纹监测的准确度和可靠性。采集声纹数据时，将阵列采集面与变压器纵面平行放置，测试距离为1 m，采样率设置为51.2 kHz，涵盖了20 Hz∼20 kHz的可听声范围。实验模拟了干式变压器绕组松动、铁芯松动以及表面放电3种典型缺陷，缺陷设置方法如图5所示，具体缺陷设置方法如下：

图4 现场布置方案Fig.4 Site layout scheme

图5 缺陷设置方法Fig.5 Defect setting method

(1) 绕组松动缺陷模拟：由文献[24]可知，引起变压器绕组松动的原因主要有绝缘层减少、垫块脱落、短路电流对绕组造成的冲击等。上述松动故障对绕组振动的影响皆可等效为不同预紧力对绕组振动的影响。本次实验中通过控制变压器上铁额穿心螺杆的预紧力以实现螺杆的不同程度松动，进而模拟实际中的绕组松动缺陷。

(2) 铁芯松动缺陷模拟：引起变压器铁芯松动的主要原因有铁芯组件中铁质夹件松动或损伤、压铁松动、铁芯片间绝缘老化等，上述缺陷会导致铁芯局部过热、叠片折断等事故。在本次实验中通过控制变压器上铁额夹紧螺栓的预紧力以实现螺杆的不同程度松动，进而模拟实际中的铁芯松动缺陷。

(3) 相间放电缺陷模拟：变压器受安装位置、潮湿环境等多因素影响，经常导致相间放电现象，相间放电现象会在变压器重要部件(如绕组和绝缘材料)中产生损坏，并进一步导致短路跳闸等故障。在本次实验中利用0.5 mm 直径的铜丝将A 相绕组首尾相连，通压后造成AB相间短路，缺陷连接方式见图5(c)。

基于上述实验台架采集得到变压器4 种状态下的声纹信号，其时域、频域波形如图6 所示。由图6(a)可知，变压器在正常运行状态下的主频为f=100 Hz，同时也出现了f=200 Hz、300 Hz 等50 Hz偶数倍的谐波分量，能量主要集中在1 kHz范围内；由图6(b)可知，绕组松动状态下的时域信号幅值较正常状态有所增大，在100 Hz∼2 kHz 范围内出现较多100 Hz 的谐波，主频为400 Hz，频谱能量主要集中在1 kHz 以内；如图6(c)所示，铁芯松动的频域信号分布与绕组松动极为相似，主频也为400 Hz，频谱能量同样主要分布在1 kHz 以内；如图6(d)所示，相间放电的信号波形与前者3 种信号存在较大区别，由于存在放电脉冲，其时域信号波动较大，且频谱能量呈现宽频分布的特点，在分析频段下(f=0 Hz∼10 kHz)皆有分布。综合以上分析可知，基于常规的频谱分析手段可初步实现变压器正常与放电缺陷的辨识，而对于绕组松动与铁芯松动此类变压器的机械缺陷而言，由于其频谱能量分布存在类似性，通常难以实现变压器绕组与铁芯缺陷的精准辨识。

图6 变压器4 种典型声纹信号时频域波形示意Fig.6 Time-frequency domain waveforms of four typical voiceprint signals of transformer

2.2 状态辨识

2.2.1 MDF计算结果分析

引入MDF 技术对变压器正常状态、绕组松动、铁芯松动以及相间放电4 种状态下的时域声纹数据进行计算，图7 为二维图像计算结果。综合考虑计算时间与状态参量的完整性，设定MDF 技术的步长d=1，时间窗口长度s=1000 (时域信号离散点)。由图7(a)可知，变压器在正常运行时，其MDF图像矩阵的极值主要分布在主副对角线两侧靠近中心区域，能量分布较为均匀；绕组松动缺陷图谱如图7(b)所示，MDF 图像的极值区域主要集中在对角线两侧的局部位置及其横纵坐标上，但相较于正常状态、其能量更偏向于点状聚集；如图7(c)所示，铁芯松动缺陷的MDF 图谱相较于绕组松动，点状能量聚集的特征更为明显，且呈现明显的区域分布特性；由图7(d)可知，放电缺陷的MDF图谱与前者3 种状态的图谱结果完全不同，整个图谱呈现“细长针状”的脉冲能量分布特性，这可能是因为在放电过程中，放电(局部放电或者间歇放电)等现象会产生突发性的脉冲峰，该放电信号的瞬时脉冲峰特征在MDF 技术中被进一步表征映射为“细长狭窄针状”分布特征。由结果可知，相较于常规的信号分析方法，当使用MDF 技术将一维时域数据映射为二维图像时，成功提取并保留了原始声纹数据的时间动态特性与非线性特性，且原始数据的也被成功的提取并表征。因此，与传统的检测方法相比，可以更好地突出表征被监测设备的实时运行状态。

图7 变压器4 种状态下的MDF 图像Fig.7 MDF images of transformer in four states

综上，变压器在4种状态下的MDF图谱均存在较为明显的差异，为后续的图像分类提供了可行性。

2.2.2 实验模型参数选择

本文所有方法均在一台CPU 为英特尔Xeon Platinum 8157、GPU 为NVIDIA GeForce RTX 3090 配置的计算机进行运算，使用语言为Python。实验采集了每组状态500 条数据、共计2000 条数据，数据集被划分为训练集、验证集、测试集，所占比例为8:1:1。模型的具体参数设置见表1。模型训练采用自适应学习能力强、内存需求少的Adam 优化器，为避免过拟合，还在训练过程中引入正则化方法，设置Dropout 为0.3，选择交叉熵作为损失函数，定义初始学习率为0.001，训练迭代次数设置为200。

表1 模型参数设置Table 1 Model parameter settings

批尺寸(Batch size)决定了每次迭代训练中使用的样本个数，较大的批尺寸可提高训练速度，但也可能导致模型不稳定。图8 为批尺寸为16、32、64、128 和256 时对于训练集损失率与测试集准确率的影响关系。由图8 可知，批尺寸过大(128 和256)与过小时(16 和32)皆会导致模型的不稳定，损失率与准确率曲线均出现了一定程度的波动，而在选择合适的批尺寸(64)后，模型在整体计算过程中较为稳定，并取得了良好的分类效果；同时也可以看出，不同批尺寸在30 次迭代后，曲线均趋于稳定，即模型达到最优。

图8 不同批尺寸训练过程的损失率和准确率随迭代次数变化趋势Fig.8 Variation trend of loss value and accuracy with iteration times in different batch sizes training process

2.2.3 模型分类性能计算

引入混淆矩阵以定量评估所提方法的识别效果。图9 与表2 为利用所提方法得到的混淆矩阵计算结果，图9中横纵坐标的数字1∼4 分别表示变压器的正常、绕组松动、铁芯松动及相间放电4 种状态，混淆矩阵的对角线分别表示每种状态被识别正确的样本数。结合图9 和表2 可知，在200 组数据中只有4 个被错误分类，其分类正确率为98%，表2 表明所提出方法的识别精度、召回率以及F1 值皆为98%。上述结果表明所提方法可以实现变压器状态的有效检测，且对于机械与放电缺陷都具有较高的识别精度，可进一步应用于工程实践中以帮助巡检人员便捷、及时地检测变压器的工作状态。

表2 评价参数Table 2 Evaluation parameters(单位: %)

图9 混淆矩阵示意Fig.9 Confusion matrix schematic

2.3 其他模型对比结果及分析

2.3.1 半消声室数据分析

为进一步表明所提方法的优越性，还将所提方法与基于常规时频图谱数据集和多头自注意力机制的Transformer 对比方法1，基于MDF 增强图谱和目前流行的深度学习分类模型、引入残差模块的卷积神经网络(ResNet-CNN)的对比方法2 进行对比分析。对比方法1 中，除采用如图10 所示的时频图像作为原始数据输入外，其余步骤皆与所提方法一致；对比方法2 中，除在对MDF 图像分类时采取了目前流行的ResNet-CNN 深度学习分类器外，其余步骤皆与所提方法一致。对比方法1 中，为充分考虑信号特征，相关参数设置如下：时间窗口长度t=1 s，频率显示范围为0 Hz∼10 kHz，重叠点数设置为100，其时频图谱结果见图10。对比方法2 的网络结构及参数见表3。

表3 神经网络结构参数设计Table 3 Structural parameter design of neural network

图10 变压器4 种状态时频图像Fig.10 Time-frequency images of four states of transformer

表4 为所提方法、对比方法1 和对比方法2 共计3种方法的识别精度。结合图10可知，仅图10(d)的放电时频图像存在较为显著的区别，而铁芯松动与绕组松动时频图像存在相似度，这是因为绕组松动与铁芯松动两种异常状态下的频谱能量分布皆集中在频率f=1 kHz 的低频段，不利于神经网络的深度学习与特征的有效感知。综上，由于引入了上述辨识度不高的时频图像集作为原始分类集的输入，因此4 种状态的辨识精度相较于所提方法均存在较大的劣势，最大精度差异达到了14%；而对比方法2 由于引入了区分度明显的MDF 图像集，4种状态的辨识精度均得到了一定幅度的提升，但仍要低于所提方法，这是因为基于多头注意力机制的Vision Transformer具有更深层次的特征表示能力，可通过堆叠多个编码器层来提取更高级别的抽象特征，能够更好地感知图像深层信息特征，从而提高分类的精度。

表4 3 种对比方法的识别精度Table 4 Identification accuracy of three comparison methods(单位: %)

2.3.2 添加噪声数据分析

在实际现场运行环境中，采集得到的变压器声纹信号中不可避免地存在无关噪声。故本节还在原始信号上添加了不同信噪比(Signal-noise ratio,SNR)的高斯白噪声，评估上述3种状态辨识方法的鲁棒性。限于篇幅，仅给出铁芯松动缺陷下的不同SNR时间序列示意(图11)。

图11 不同SNR 下的时间序列示意Fig.11 Schematic diagram of time series under different SNRs

表5 为在原始信号添加不同SNR 下的变压器各运行状态辨识精度。由表5 可知，随着SNR 的下降，对于实际运行状态的分类辨识精度也随之减小，但始终保持在较高的识别精度(>90%)，说明所提方法在噪声干扰下仍具备较优的分类性能且鲁棒性较强，始终优于其余两种对比方法。

表5 不同SNR 下各方法的分类准确率Table 5 Classification accuracy of each method under different SNR

2.4 所提方法辨识结果的可解释性分析

针对常规深度学习网络的黑箱特性、难以明晰辨识结果等问题，还引入Grad-CAM 对变压器4 种状态下的MDF 增强图像进行可解释性说明。图12为4 种状态下MDF 图像经过Grad-Cam 算法后获得的类激活图。类激活图中的光晕颜色越深，则代表此区域对于最终分类结果的影响越大。由图12可知，4 种状态下经过Grad-Cam 算法获得的类激活图分别具备较为明显的表征效果：在正常状态下，类激活图的光晕范围较为集中，主要分布在MDF 图像的中心靠左位置；在绕组松动缺陷的类激活图中，光晕区域较正常状态增大约1 倍，在图像的中间区域向外辐射；而对于铁芯松动缺陷的类激活图而言，光晕区域则主要集中在右上角；放电缺陷类激活图中的光晕范围覆盖极大，几乎包含所有能量较高的狭窄脉冲束。综上，4 种状态下MDF 图像的类激活权重关注区域皆不相同，这进一步解释了深度学习网络进行分类辨识的计算依据，表明所提方法的分类辨识结果具有较强的可信度。

图12 变压器4 种状态时MDF 图像的Grad-Cam可视化结果Fig.12 Grad-Cam visualization results of MDF images in four states of transformer

3 结论

针对电力变压器运行状态感知能力的不足，提出了一种基于非接触式声纹信号检测的MDF 信号增强和多头自注意力机制的变压器工作状态辨识方法，进行了包含变压器典型状态的模拟实验，所得结论如下：

(1) 提出了一种针对于电力变压器声纹信号的映射方法，利用该方法可实现变压器不同状态的深层感知与有效表征；

(2) 搭建了10 kV电力变压器的缺陷模拟系统，模拟了变压器正常状态、绕组松动状态、铁芯松动状态以及表面放电4 种典型缺陷，计算结果表明：所提方法能够实现变压器不同状态的有效辨识，且辨识精度相较于常规方法有显著提升，提升约6%；在实测信号中加入高斯白噪声干扰模拟实际运行环境下干扰，在SNR为4 dB 情况下，所提方法的辨识准确率仍大于90%，相较于常规方法具备较强的鲁棒性；

(3) 对所提方法的分类辨识结果进行了可解释性分析，验证了模型分类辨识结果的可信度。

限于实验数据的有限性，在后续的工作中，笔者计划增加更多缺陷类型的测试数据，并进一步引入包含不同电压等级的变压器实际故障数据，以验证和提高方法的辨识准确率与鲁棒性。