基于二维特征提取方法与混合神经网络的接触式采集110 kV三相三绕组变压器无载调压异常放电声纹的识别方法

2024-03-05 01:13黄文礼晏雨晴
电机与控制应用 2024年2期
关键词:声纹梅尔频域

童 旸, 黄文礼, 李 磊, 晏雨晴

(安徽南瑞继远电网技术有限公司,安徽 合肥 230088)

0 引言

电力变压器在输电、变电和配电过程中扮演着至关重要的角色,确保其正常运行是保障电力传输与供给安全的关键环节[1-4]。随着变压器运行时间的增长,由于运行负荷、设备老化以及绝缘油浑浊等因素的影响,变压器的工况不可避免地受到影响,可能出现铁心松动、绕组变形、匝间短路、直流偏磁和异常放电等故障[2,4-5]。其中,异常放电是变压器常见故障中危险系数较高的情况之一。多种异常因素,如过负荷、绝缘油污染、绕组故障和散热器故障等,都可能导致异常放电的发生[5-7]。异常放电初期局部持续发生,随着放电次数的增多,产生大量热能,导致介质温度升高,甚至局部碳化,可能引发热击穿风险,导致变压器损坏等严重后果[6-7]。因此,及时准确地检测异常放电对于变压器的安全运行和整个电力系统的正常运作至关重要。

传统的变压器异常放电监测主要依赖于油色谱的变化观察,尽管该技术准确性较高,但微小的异常放电很难产生足够观测到的化学性质变化,使得该方法难以发现异常放电的早期迹象。近年来,基于声纹的变压器工况异常实时监测方法迅速发展,得益于语音识别技术的成熟,利用变压器在运行时产生的物理振动声音来判断其工作状态成为可能[3,5,8-9]。

目前,大量研究已通过提取采集到的声音信号特征来判断变压器中存在的各类故障。在特征提取方面,主流研究分为时域与频域两种信号特征提取方法:基于时域的提取方式主要包括包络曲线与过零率信息[10-11],用于判断声音信号瞬间能量或频率的变化;基于频域的提取方式首先使用傅里叶变换[8],将时域信号转换为频域信号。由于变压器正常工作及常见异常缺陷可能发生的频带非常宽,最高甚至可以达到超声频率。因此频域信号维度非常大,直接分析将占用大量计算资源,必须进行关键频率提取与降维操作,一般通过诸如梅尔倒谱系数(Mel-Frequency Cepstrum Coefficient, MFCC)、线性预测系数(Linear Prediction Coefficient, LPC)以及线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)等方式实现关键声纹信息提取[12-13]。最后,设计声纹分析算法实现异常故障声纹的检测与识别功能。传统的基于信号处理与机器学习的分析方法包括支持向量机(Support Vector Machine, SVM)、隐马尔可夫模型(Hidden Markov Model, HMM)以及高斯混合模型(Gaussian Mixture Model, GMM)等[14-16]。随着神经网络的出现与发展,后向传播网络(Back Propagation, BP)和深度学习网络(Deep Neural Network, DNN)也被引入到变压器分析领域[2,7,17],并取得较好的成果。

目前,常见的变压器异常故障声纹如铁心松动、绕组变形等已经被证明可以通过声纹分析获得较好的检测能力[18]。然而,异常放电故障,尤其是准确识别轻微的异常放电现象,依然是富有挑战的课题,其主要原因有如下两点。首先,异常放电发生速度极快,通常小于10毫秒,而普遍的变压器声纹信号处理需要进行加窗分帧操作,窗体长度通常选取100毫秒到500毫秒,再对每帧进行快速傅里叶变换获得频域信号。然而,为了捕捉到迅速的异常放电,窗体需要进一步缩小到20至50毫秒,这极大增加了需要分析的声纹帧数的数量,而诸如隐马尔可夫链、循环神经网络(Recurrent Neural Network, RNN)长短时记忆网络(Long Short-Term Memory, LSTM)都是时序处理网络[19-20],帧数的增加必然造成计算时间的增加。其次,由于初期的异常放电声音极易被变压器本体振动声音淹没,仅表现为频域上的微弱变化。目前常见的梅尔倒谱系数、线性预测系数缺乏对变压器实际工作的声纹频率的优化,同时当前以循环神经网络为代表的异常故障检测方法难以兼顾瞬时微弱变化。因此,我们不仅需要对异常放电表现特性进行有针对性的特征提取方法设计,还需要研究一种高精度高敏感度的声纹特征变化感知分析方法。

本文首先针对变压器异常放电的特点,即其信号弱且发生迅速,结合关键频率提取与梅尔系数提取思想,设计了一种基于二维化的关键声纹特征提取方法。该方法在保留变压器工频本征特性的基础上,实现了对微弱异常放电的有效提取,并通过高倍率特征维度压缩。其次,本文设计了一种基于卷积神经网络(Convolutional Neural Network, CNN)[21-22]与视觉转换器(Vision-Transformer,ViT)[23]的混合神经网络架构。该网络结合了CNN的特征提取能力和ViT的自注意力机制,实现了对微弱异常放电的高精度发现与识别。最后,本文结合110 kV变压器在无载调压试验中的实际放电数据进行了试验及分析,确定了最佳的变压器特征提取方法和识别模型参数。通过这一综合方法,本研究为解决变压器异常放电的弱、快特性提供了有效的解决方案,并在真实数据上取得了令人满意的试验结果。

1 变压器声纹预处理与特征提取

1.1 接触式变压器声纹采集与试验部署

本文采用了接触式拾音器,该拾音器通过磁吸方式附着于110 kV三相三绕组变压器外壳,利用变压器外壳传导变压器内部振动产生的声纹信号。相较于非接触式的枪体麦克风,该方法的优势在于省略了变压器外壳到麦克风之间的空气介质传导过程。这一设计不仅避免了空气介质对微弱声纹信号的削弱现象,同时减少了环境噪音对声音信号的干扰,从而提升了声纹拾音器对微弱信号的感知能力。

为了证明接触式拾音器的有效性,分别使用两种拾音器进行信号采集并进行对比。两种拾音器的声纹信号采样率同为44.1 kHz,接触式部署于变压器放电试验的近端侧与远端测外壳上,分别位于1米和2米的高度。非接触式部署于距离变压器0.5米与1米位置。接触式与非接触式拾音器在跳闸前后的对比声纹时谱图如图2所示。对比可知,接触式拾音器在近端1米高度的信号(a)包络最平稳,2米高度的信号(b)虽然保持了较高的信号强度,但是包络上出现小幅度的波动,这可能与靠近变压器箱体上部,导致采集到了套管等部件的杂音有关。在变压器跳闸前,非接触式拾音器(c)相比接触式信号强度明显更小且包络波动更大;当发生跳闸之后,接触式拾音器获取的信号(a)强度下降最迅速, 而非接触式拾音器(d)甚至出现瞬间信号强度大于跳闸前的情况。这是由于跳闸产生的巨大声响在封闭场地环境的空气介质中形成了持久响亮的回声,并被非接触式拾音器持续接收,进一步证明了非接触式变压器更容易受到周围环境的影响。由此,该试验以接触式拾音器近端1米高度采集到的数据作为试验数据进行分析。

图1 变压器拾音器部署图:右上为接触式拾音器,右下为非接触式拾音器Fig.1 Tansformer voice sensor deployment: contact type-the upper right, non-contact-lower right

图2 不同部署位置下拾音器采集的声纹对比Fig.2 Comparison of voiceprints collected by pickups at different deployment positions

本试验数据基于110 kV三相三绕组变压器无载调压试验。随着电压爬升过程,记录变压器内部产生的声纹信号。图3展示了随着电压的爬升,总体声音逐渐增大的现象;图4展示了伴随的放电频率逐渐上升的情况。

图3 电压爬升变压器声纹时频谱图变化趋势Fig.3 Spectrum trend when voltage climbs

图4 电压爬升过程中异常放电发生变化趋势Fig.4 Discharge occurrence trend when voltage climbs

1.2 变压器声纹样本预处理

为了对采集到的声纹信号进行量化分析,本文采用了一系列预处理步骤,包括切分、分帧、加窗以及离散傅里叶变换。处理的输出将被传递到后续的特征提取模块,流程图如图5所示。在本文中,监测的声纹信号每5秒进行一次切分,采用交叠分段法进行分帧,帧长设置为25毫秒,帧移(步长)为0.5帧长,因此每帧约包含1100采样点,帧移为550采样点。这一处理流程有助于更好地对声纹信号进行分析和提取有用的特征。

图5 变压器声纹样本预处理流程框图Fig.5 Block diagram of sample preprocessing flow

为了减少由于分帧对声纹信号的切分而产生的截断效应,减轻傅里叶变换时可能出现的频率泄露问题,通常会使用汉明窗函数进行帧的加窗操作。汉明窗的表达式如下:

(1)

式中:w(n)为窗函数在第n个采样点的取值;L为窗长。

在进行每帧数据的快速傅里叶变换(Fast Fourier Transform,FFT)操作后,将时域信号转换为频域信号。如果将获得的每一帧频域信号视为一个多维特征向量,对全部向量进行拼接操作,就能够得到一个[F,T]的二维特征矩阵,其中F为频域维度,T为总帧数。在本试验中,5秒的声纹数据,采样率为44.1 kHz,步长为12.5毫秒。因此,此时二维特征矩阵的尺度为22 000×400。由于直接计算将会消耗大量计算资源,因此需要进一步优化特征提取方法,以降低频率特征维度。

1.3 优化的混合频率特征提取

声纹分析目前最常用的特征提取方法是梅尔频率提取法。该方法首先将频域信号转换为梅尔频域,然后划分成等宽的梅尔频带。这一特征提取方法模拟了人耳对于低频和高频的分辨能力,体现了人耳对于频率的非线性响应。

频率f向梅尔m的转换计算式如下:

(2)

式中:Mel(f)为频率f转换为对应的梅尔频率的变换函数。

从梅尔频率m向频域转换计算式如下:

Mel-1(m)=700×(10m/2 595-1)

(3)

式中:Mel-1(m)为梅尔频率m重新转换成对应的频率的逆变换函数。

然而,变压器的工作频率主要集中在1 000 Hz以下的50 Hz倍频。变压器大部分异常缺陷发生都会引起这些频率的明显变化,因此在频率提取中保留该频带的分辨率尤为重要。如表1所示,梅尔滤波器组的峰值频率很难与50 Hz倍频对齐,因此使用梅尔滤波器组可能导致1 000 Hz以下关键频率特征的损失。

表1 不同数量的三角滤波器峰值频率(Hz)Tab.1 Peak frequencies of triangular filters with different amounts (Hz)

因此,本文提出将梅尔频率与关键频率提取相结合的方法:

(1) 计算使用400个三角滤波器的梅尔滤波器组覆盖声纹信号全频率时每个滤波器峰值频率;(2)仅计算峰值在1 000 Hz以上的梅尔滤波器组特征值;(3)对1 000 Hz及以下频段使用20 Hz频带交叠最大值采样法,即从1 Hz起,每20 Hz频带取其最大值作为采样特征,频带间交叠1/2,共获得100维特征向量;(4)该100维特征与获得的梅尔频率特征拼接,从而得到一个混合频率特征。

由(1)获得的滤波器组中第85个滤波器峰值为985.3 Hz,第86个滤波器峰值为1 002.8 Hz,则(2)中仅计算第86至第400共315个三角滤波器的梅尔频率特征值。(3)中获得1 000 Hz以下100维特征值,(4)中可知,5秒声纹信号经过该方法可获得尺度为415×400的二维特征矩阵。该混合特征提取方法在保证变压器工频分辨率同时,极大压缩了频率维度,提升了后续计算资源利用效率。

2 基于混合神经网络的变压器异常放电识别方法

异常放电与变压器工作振动相比能量较轻微,经常不能在时域谱线中表现出来。传统的包络突变检测等方法难以保证检测的召回率。同时,异常放电发生的时间较短,存在突发性,与时序上下文信号关联性较少。因此,常见的基于时序的识别方法,如HMM、RNN和LSTM等,往往不能很好地发现异常放电现象的发生。此外,时序分析方法处理时间与声纹样本切片长度呈正相关,并呈现指数上升趋势,不适合分析较长的声纹样本切片。相反,对声纹样本进行二维化分析既兼顾了瞬时频率表征与时序之间的关系,又得益于卷积神经网络对于特征矩阵的出色处理能力,实现了高效的特征语义提取。Transformer架构的识别网络相较于传统的直接使用全连接层分类网络获得可学习分类权重的方法,使用了一种级联多个编码器模块结构完成对语义特征进一步分析。其中,每个编码器模块中包含一个多头注意力模块,利用自注意力机制学习语义特征中各个序列化的局部特征与全局语义之间的关联程度。这进一步实现了在较为稀疏的二维特征矩阵中定位到微弱的异常放电特征,从而实现了高精度的识别表现。完整网络架构图如图6所示。

图6 混合网络架构图Fig.6 Hybrid network structure

2.1 基于卷积神经网络的二维特征提取

首先,需要对声纹特征提取阶段获得的二维特征矩阵进行尺度变换,将矩阵的长宽从415×400扩充为448×448,然后转换为可应用于卷积神经网络的三维特征张量448×448×1。在设计特征语义提取网络时,需要解决梯度消失和梯度爆炸的问题,同时防止微弱的异常放电视觉特征随着卷积层数的增加而消失。考虑到这些问题,可采用残差网络架构。鉴于整体运算速度的考虑,可以选择使用ResNet18网络作为特征语义提取网络。该网络架构如图7所示。

图7 修改后的ResNet18网络Fig.7 Modified ResNet18 network

首先,ResNet18的特征输入通道数从3改为1,以适配二维声纹特征的通道数。之后,遵循原版ViT代码中的ResNet50搭建细节(https:∥github.com/google-research/vision_transformer),对ResNet18进行相应修改,包括:(1)将原版ResNet18中全部的BatchNorm操作替换为GroupNorm操作;(2)网络中所有卷积层使用PyTorch中的标准化权重的二维卷积(nn.StdConv2d)替换为普通二维卷积(nn.Conv2d)。经过ResNet18网络后,将得到一个14×14×512的特征图,作为后续Vision-Transformer的输入。

2.2 基于Vision-Transformer的异常放电识别

由于变压器的异常放电通常会影响频谱信息的多个频段,即放电语义与特征图中的多个局部区域存在较强的关联性,且不同程度的放电影响力也不尽相同。因此,相较于直接使用全连接层设计分类器, Vision-Transformer的自注意力机制能够有效实现语义与特征图序列的关联对应,从而有效提升识别效果。

CNN+ViT混合网络架构如图8所示。考虑到变压器声纹特征相对简单,且需要尽可能减少网络参数量以提高处理速度,将ViT网络中的编码器模块的层数从原文Base结构的12层缩减到6层。在3.3节中,我们进行了缩减层数前后的网络识别效果对比,试验证明该策略能够有效减少神经网络收敛所需的时间,并且保留ViT网络在自注意力上的优势。

图8 异常放电样本时域频域谱图:(a)时域频域均有明显变化,(b)时域无明显变化频域有明显变化,(c)时域频域均无明显变化Fig.8 The time-domain and frequency-domain spectrum of abnormal discharge samples: (a) significant changes in the time-domain and frequency-domain, (b) no obvious changes in the time-domain and obvious changes in the frequency-domain, (c) no obvious changes in the time-domain and frequency- domain

3 变压器异常放电识别试验

3.1 数据与试验平台参数

本文的试验数据来源于110 kV三相三绕组变压器无载调压放电试验中多路拾音器采集的数据。人工从数据中筛选出了240条放电样本和1 200条未放电样本,其中80%被随机选取作为训练样本,剩余20%作为测试样本。每个样本的长度为5秒,采样频率为44.1 kHz,经过快速傅里叶变换后,频域信号仅保留前22 kHz用于后续分析。图8展示了三种不同放电强度案例的部分典型样本。在时域中,(b)与(c)并没有明显的包络变化,而(c)在时频谱线中也仅出现了几乎难以察觉的变化,即放电信号所携带的能量极低。因此,当放电瞬间的信号能量与非放电瞬间信号能量比例越相近时,该异常放电现象越微弱。

本次试验平台使用Linux 18.04操作系统,CPU型号Intel i9 9900X, 内存32 GB,GPU NVIDIA RTX Titan 24 GB。

3.2 声纹数据特征提取方法对比试验

为了选取最佳的声纹特征提取方法,本部分使用了多种不同的声纹特征提取方法进行比较,包括梅尔频率系数以及本文提出的二维声纹特征提取方法。为了找到最佳的二维声纹特征提取方法,分别使用了不同数量的梅尔滤波器组进行试验。在该试验中,所有单帧特征都会通过时序合并的方式转换为二维声纹特征。为了保证使用统一结构的神经网络,所有二维声纹特征都将被缩放为尺度为448×448×1的特征张量,作为识别神经网络的输入。

本次试验的识别对比结果如表2所示。通过识别率的比较可以发现,所提出的混合特征提取方法整体上要优于直接使用梅尔频率系数进行特征提取方法。同时,无论是梅尔频率系数还是所提特征提取方法,增加滤波器组数量时都会提升效果,但滤波器组的增加明显会增加运算时间,因此需要在滤波器组数量与识别表现之间取得平衡。相较于传统梅尔频率特征提取方法,识别率提升约8.3%。相较于全频段50 Hz最大值特征提取,识别用时减少约0.18秒/样本。

表2 不同特征提取方法识别用时及识别率对比Tab.2 Comparison of recognition time and accuracy of different feature extraction methods

3.3 异常放电声纹特征识别方法对比试验

为了对比不同识别方法对异常放电声纹信号的识别表现,本部分使用多种常见识别方法进行识别结果比较,其中包括LSTM、ResNet18、ResNet50以及本文提出的CNN+ViT方法。特征提取方法使用本文所提混合特征提取方法,识别结果对比如表3所示。

表3 不同识别方法识别用时与识别率对比Tab.3 Comparison of recognition time and accuracy of different recognition methods

由表3可知,所提方法相较于LSTM网络,不仅在识别用时上减少295秒(约1.02秒/样本),而且在识别率上提升18.4%,这说明异常放电与时序上下文关联度不高,以LSTM为代表的时序识别网络不适合于该任务。使用ResNet18与ResNet50网络后,识别率上明显提升。而单纯使用ViT网络,由于缺乏深度卷积神经网络的语义提取能力,其提升效果极其有限。所提的CNN+ViT方法识别率表现得到进一步提升,相较于ResNet50识别用时仅增加46秒(约0.16秒/样本),识别效果提升约4.5%,相较于ViT网络识别效果提升约4.2%,证明基于CNN网络的语义特征提取能够较好的获取二维化特征中的异常放电特征。

为进一步说明2.2节中本方法模型构建时减少编码器模块层数带来的效果提升,本部分进行了修改前后的模型表现对比,对比结果如表4所示。

表4 编码器模块层数缩减前后模型表现对比Tab.4 Comparison of the performance of the model before and after the reduction of the number of encoder module

由上表可知,使用6层编码器模块的模型在第10次迭代时达到了最佳效果,而使用12层编码器模块的模型需要到第16次迭代才能达到相似的识别率。由此可见,在本任务中,适当减少编码器层数不仅能够减少模型的计算参数量,还有助于提高模型达到最佳效果的收敛速度。需要指出的是,两个模型在达到最佳表现后均出现了下降的趋势,这可以理解为由于数据总量及数据特征丰富度的局限性导致的过拟合现象。

4 结语

本文通过对采集的110 kV三相三绕组变压器无载调压过程中异常放电声纹数据进行分析,提出了一种优化的二维声纹特征提取方式,并构建了一个基于卷积神经网络与Transformer架构网络的混合异常放电特征识别方法。通过与现有特征提取方法及识别方法在识别用时与识别率上的对比,所提出的混合特征提取方法相较于传统梅尔频率特征提取方法,识别率提升约8.3%。与时序神经网络LSTM相比,在识别用时及识别率上分别提升1.02秒/样本和18.2%。相对于卷积神经网络ResNet50,识别率提升4.5%,比ViT网络识别率提升4.2%。试验证明所提出的特征提取方法与识别方法在保证识别速度的同时,提高了异常放电声纹的识别准确性。

猜你喜欢
声纹梅尔频域
大型起重船在规则波中的频域响应分析
基于梅尔频谱分离和LSCNet的声学场景分类方法
梅尔维尔鲸
女诗人梅尔诗集《十二背后》三人谈
屏幕即指纹识别
“熊”视眈眈
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离
基于频域伸缩的改进DFT算法
基于数字水印的人脸与声纹融合识别算法