基于门控循环单元胶囊网络的滚动轴承故障诊断

2021-07-21 08:19王超群李彬彬焦斌
轴承 2021年5期
关键词:卷积准确率胶囊

王超群,李彬彬,焦斌

(上海电机学院 电气学院,上海 201306)

轴承是机械装置中重要的部件[1],疲劳损坏、润滑不良、安装不当等都会导致轴承出现故障,传统的轴承故障诊断方法通常采用人工提取故障的方式:文献[2]将集成经验模态分解(EEMD)与峭度准则结合,文献[3]将小波包变换与样本熵相结合,文献[4]提出基于Teager能量算子的频谱分析方法,这些方法虽然通过实际滚动轴承故障试验以及仿真分析证实能够有效地提取滚动轴承故障特征,但其特征提取的工作量较大,特征提取较为复杂,且专业性较强。

近些年,人工智能技术的发展突飞猛进,目前热门的深度学习[5]也在轴承故障诊断领域得到了广泛应用。文献[6]提出了一种基于深度神经网络的轴承故障诊断方法,在美国Case Western Reserve大学的轴承故障数据下取得了较好的效果。文献[7]提出了将离散傅里叶变换与卷积神经网络相结合的故障诊断模型,对齿轮箱中轴承、齿轮的试验也取得了不错的结果。文献[8]提出一种结合小波包变换和长短时记忆神经网络的方法,在风电机组滚动轴承故障识别中获得了较高的识别率。然而,在实际工业环境中,由传感器采集到的振动信号可能会受到噪声的污染。此外,当负载改变时,电动机转速也会发生改变,传感器测得的振动信号也会随之变化。虽然许多故障诊断模型在原始信号诊断上拥有很高的识别率,但处于噪声和变负载环境下时识别率可能会出现较大的下降[9]。因此,将循环神经网络的变种门控循环单元(Gated Recurrent Unit,GRU)[10]与胶囊网络(Capsule Network,CAPS)[11]相结合,提出一种基于门控循环单元及胶囊网络的滚动轴承故障诊断模型,并通过试验验证该方法的抗噪性、通用性和泛化能力。

1 理论基础

1.1 门控循环单元

与长短时记忆神经网络(LSTM)类似,门控循环单元也是为了解决循环神经网络的梯度消失问题而提出的方法,但比长短时记忆神经网络更为简便[12]。门控循环单元使用了更新门和重置门,这2个门共同决定了门控循环单元的输出,其具体结构如图1所示。

图1 门控循环单元结构图

更新门的主要作用是决定输出状态ht要保留多少历史状态ht-1,以减小梯度消失的风险。更新门的公式为

Zt=δ(Wzxt+Uzht-1+bz),

(1)

式中:δ为sigmoid函数;xt为t时刻的输入向量;Wz,Uz分别为更新门和循环连接的权重;bz为偏置项。

重置门的主要作用是决定过去有多少信息需要被遗忘,即候选状态对历史状态的依赖程度。重置门的公式为

rt=δ(Wrxt+Urht-1+br),

(2)

式中:Wr,Ur分别为重置门和循环连接的权重;br为偏置项。

(3)

式中:Wc,Uc分别为候选状态和循环连接的权重;bc为偏置项;⊙表示同或运算。

最后,当前时刻的输出ht为

(4)

1.2 胶囊网络

胶囊网络的实质是将传统神经网络中的神经元由标量变为向量。向量不仅可以表示物体的特征,还可以包括物体的方向、状态等,可以用来减少运算过程中信息的丢失。胶囊网络的输入与全连接神经网络类似,由神经元线性加权再求和,不同的是胶囊网络在此基础上加了一个耦合系数,具体过程为

(5)

(6)

通过上述过程得到中间向量sj,sj经过激活函数squashing后得到输出向量vj,使用该激活函数的优点是既可以保留初始向量的方向,又可以将输入向量的模值压缩到[0,1)之间[13]。具体计算公式为

(7)

图2 胶囊网络结构图

(8)

(9)

2 基于门控循环单元的胶囊网络模型

为了充分提取故障特征并减少特征信息的丢失,提出了一种基于门控循环单元的胶囊网络故障诊断模型。整个网络模型如图3所示。

图3 基于门控循环单元的胶囊网络结构

2.1 模型的前向传播过程

模型的第1层为门控循环单元层,作用是通过控制输入信息的流入充分提取特征,并将特征传递给胶囊网络。由图3可知,此处输入为28×28的张量尺寸,即将输入当作28个时间段,每个时间段的内容为28个值,将28个时序一次性送入门控循环单元中,门控循环单元的隐藏层节点个数为128,最后得到10×10的张量尺寸。

模型的第2层为卷积层。加入卷积层的目的是减小特征尺寸,使胶囊网络的计算更加简便。将经过门控循环单元层的张量放入卷积核尺寸为5×5、过滤器深度为256的卷积层中,并经过一层批量归一化(BN)层[14],最终得到6×6的张量尺寸。

模型的第3层为初级胶囊层,其作用是将门控循环单元层提取到的标量特征转化为向量特征。构建向量的方法是将特征层的通道合并为一个胶囊单元[15]。在该模型中,设置输出的通道数为32,每个通道数所包含的特征数为8,因此提取到的特征总数为256(32×8)。特征数为8的向量被封装在一个初级胶囊里。由于张量尺寸为6×6,所以一共有1 152(6×6×32)个初级胶囊。

模型的第4层为数字胶囊层,作用等同于全连接层在卷积神经网络中的作用,用来区分各种故障类型。由于要识别的轴承故障类型是10种,所以该层的胶囊个数为10,设置向量维度为16,向量的模长即某种故障类型的概率。具体参数设置见表1。

表1 基于门控循环单元的胶囊网络模型参数

2.2 模型的反向传播过程

反向传播算法可以根据定义好的损失函数优化神经网络的权值,从而使神经网络的损失值达到比较小的程度。参数的优化好坏直接决定了模型的优劣。此网络中的损失函数比较特殊,由边缘损失和重构损失两部分构成。边缘损失的表达式为

Lc=Tcmax(0,m+-‖vc‖)2+

λ(1-Tc)max(0,‖vc‖-m-)2,

(10)

式中:Tc为真实标签,当输入样本类别与c一致时Tc取1,否则为0;‖vc‖为向量的模长,即某种故障类型的概率;m+,m-分别为上边界和下边界,分别取0.9,0.1。当‖vc‖>0.9或‖vc‖<0.1时,损失函数为0。λ的作用是调整这2项的比例,这里取常数0.5。

重构是指根据已有参数重新构建初始输入的电机轴承数据。加上重构损失的目的是减小训练数据集过拟合的风险,增强模型的泛化能力。重构解码的过程由3层全连接层构成,3层全连接层的节点数分别为256,512,784,对应的激活函数分别为ReLU,ReLU,sigmoid。重构损失的表达式为

(11)

式中:yk为重构图像;xk为原始图像。

最终的损失由上述两部分构成,即

L=Lc+αLr,

(12)

式中:α为边缘损失占损失的主要部分,此处取0.000 5。

3 试验设置

3.1 数据准备和处理

为验证所提GRU+CAPS模型的有效性,采用美国Case Western Reserve大学公开的滚动轴承数据集进行验证。选用不同工况下驱动端轴承的加速度数据作为研究对象,除了正常状态,设置了内圈故障、外圈故障和钢球故障,每种故障方式下分别有故障直径为0.178,0.356,0.534 mm的3种人为损伤。

由于一共有10种状态,设置标签为0~9,分别代表正常状态和9种故障状态。采用连续抽样的截取方法处理数据,设定抽样步长为784[16]。每种状态均取1 000个信号样本,加上标签最后得到10 000×(784+1)的矩阵,保存至.csv文件后作为模型的输入。将10 000个数据以7∶2∶1的比例分为训练集、验证集和测试集,即包含7 000个训练数据、2 000个验证数据和1 000个测试数据。数据集具体规格见表2。

表2 试验数据集

3.2 相关参数设置

本试验在Google深度学习框架TensorFlow中完成,设置批次大小为64,对所有样本的训练次数为20次。胶囊层中动态路由算法的迭代次数为2。除此之外,使用Adam优化器优化总损失,学习率设置为0.001,并采用动态衰减的方式,衰减率为10-8。

3.3 对比试验设置

为进一步验证GRU+CAPS模型的有效性,分别采用胶囊网络、门控循环网络(GRN)、卷积神经网络(CNN)、深度神经网络(DNN)进行对比试验。

3.3.1 胶囊网络

胶囊网络结构先使用2层卷积层将张量尺寸由28×28变为6×6,第1层卷积层的卷积核尺寸大小为9,深度为256,步长为1;第2层卷积层的卷积核尺寸大小为9,深度为256,步长为2。此设置既减小了特征尺寸,也与本文所提模型进入胶囊网络的尺寸保持一致,之后的参数设置与本文所提模型相同。

3.3.2 门控循环网络

门控循环单元网络参数设置与该模型中门控循环单元部分的参数设置基本一致。输出节点改为10个,代表10种状态。同样使用Adam优化器,学习率设置为0.001,损失函数选择交叉熵损失函数。

3.3.3 卷积神经网络

卷积神经网络使用2层卷积层和2层全连接层。第1层卷积层的卷积核尺寸大小为5,深度为256;第2层卷积层的卷积核尺寸大小为3,深度为32。2层池化层的尺寸大小为2,步长为2。2层全连接层的节点数分别为512,10。其余参数设置与门控循环单元保持一致。

3.3.4 深度神经网络

深度神经网络使用3层全连接层:第1层的节点个数设置为1 024,第2层的节点个数设置为512,第3层为输出层,输出节点为10(即10种状态)。前2层的激活函数均为ReLU函数,第3层的激活函数为softmax函数。其余参数设置与门控循环单元保持一致。

4 试验结果分析

4.1 原始信号的诊断结果

使用不同工况下的数据进行试验,结果见表3,由表可知:各模型的准确率均在96%以上,说明深度学习模型具有极强的故障诊断能力;本文所提GRU+CAPS模型与CAPS,GRU,CNN模型的平均准确率相差无几,分别只高出0.15%,0.35%,0.06%,平均比DNN模型的准确率高出2.59%。因此,在原始信号下,本文所提模型的优势并不大。

4.2 噪声环境下的故障诊断

选用高斯白噪声作为噪声干扰,为更好地验证模型的抗噪能力,在训练集中使用原始信号,在验证集和测试集中加入不同信噪比的高斯白噪声。

2hp工况下0.178 mm内圈故障轴承的时域信号如图4所示,当信噪比为0时,噪声污染下的加噪信号与原始信号相比发生了很大变化,从中提取故障特征的难度很大。因此,在噪声环境下仍能保持较高的准确率对于模型尤为重要。

图4 内圈故障轴承的原始信号及加噪信号

使用2hp工况下的数据进行试验,分别在验证集和测试集中加入0~8 dB的高斯白噪声信号,不同模型的识别率如图5所示。

图5 不同噪声状态下各模型的准确率

由图5可知:噪声环境下,CNN和DNN的诊断能力明显低于其他3种模型,在4 dB及以下的噪声环境中准确率下滑较为严重,抗噪能力较弱,GRU的抗噪性则比CNN和DNN好一些;在0~8 dB的噪声环境下,本文所提模型的准确率在5种模型中最高,特别是当信噪比为0 dB时,GRU,CNN,DNN的准确率均出现了大幅度的下降,而本文所提GRU+CAPS模型的准确率仍可达到94.375%,分别比CAPS,GRU,CNN,DNN高出4.17%,7.81%,28.33%,24.17%。这说明与标量相比,向量能提取到更多的细节特征,在噪声污染较大的环境中仍能保持较高的准确率,而且将GRU作为CAPS的输入时能更充分地提取故障特征。

4.3 变负载环境下的故障诊断

0.534 mm内圈故障轴承在不同负载工况下的时域信号如图6所示,同一故障在不同负载工况下的信号波形也存在很大差异,会导致模型无法区分提取到的特征,从而影响识别准确率,因此对变负载环境下的故障诊断也具有重要意义。

图6 0.534 mm内圈故障轴承在不同负载工况下的时域信号

分别将0hp+1hp,0hp+2hp,1hp+2hp工况下的数据作为训练数据,对应的 2hp,1hp,0hp工况下的数据作为验证和测试数据进行试验,结果如图7所示,由图可知:当负载发生改变时,DNN的准确率下降最快,3种情况下的准确率都不足60%,说明DNN的泛化能力较弱;CNN在变负载工况下具有较高的准确率,但抗噪能力较弱;DNN和CNN这2种模型可能难以适应复杂多变的环境,而其他3种模型在噪声环境和变负载工况下都具有较高的准确率,尤其是本文所提GRU+CAPS模型,在3种情况下均能达到90%的准确率,平均比CAPS,GRU,CNN高出5.72%,1.93%,4.15%,充分说明该模型具有较好的泛化能力,可以适应一些复杂多变的工作环境。

图7 不同负载工况下各模型的准确率

4.4 其他数据集下的故障诊断

试验数据来源于如图8所示的实验室电动机数据采集平台,选用电动机驱动端轴向的振动信号作为试验数据,信号采样频率为10 kHz。故障类型及数据规格见表4。

图8 数据采集平台

表4 数据集规格

由于深度学习模型需要大量的数据支撑,当训练样本过少时会陷入过拟合状态,从而影响识别结果,而受各种因素的影响,该数据采集平台所采集到的数据远远不够。因此,通过重叠采样的方法进行数据增强,如图9所示。通过滑动一定的步长得到新的数据,当信号长度一定时,若滑动步长太小,可能会造成大量冗余信息;若滑动步长太大,样本数量可能依然不足。试验中设置滑动步长为99,最后得到总的样本数为8 000,即正常状态和7种故障状态的样本各1 000,对应标签为0~7。同样将8 000个数据以7∶2∶1的比例分为训练集、验证集和测试集,即包含5 600个训练样本、1 600个验证样本和800个测试样本。

图9 重叠采样

使用GRU+CAPS,CAPS,GRU,CNN,DNN模型分别在原始状态和加噪状态下进行试验,除所有样本的训练次数设置为40外,其余参数设置与之前试验保持一致。原始状态下的结果见表5,加噪状态下的结果如图10所示。

表5 原始状态下各模型的准确率

图10 加噪状态下不同模型的准确率

由表5和图10可知:在原始状态下,GRU+CAPS与CNN模型的准确率相差无几,比CAPS,GRU和DNN的准确率分别高出0.25%,9.64%和5.60%,充分体现了该模型具有较好的通用性,也从另一方面说明GRU和DNN模型的通用性较弱;在加噪声状态下,GRU,CNN,DNN的准确率都出现了大幅度下降,而GRU+CAPS模型在0 dB噪声环境下的准确率仍能保持在83.07%,在2 dB及以上的噪声环境下均能保持90%以上的准确率,平均比CAPS,GRU,CNN,DNN的准确率高出0.91%,16.3%,15.1%,9.24%,更加印证了向量能够提取到更多的细节特征,从而提高模型的准确率。

5 结束语

提出了一种基于门控循环单元的胶囊网络的滚动轴承故障诊断方法,该算法通过门控循环单元快速提取特征,再经过胶囊网络提取细节特征并进一步得到分类结果。在对原始数据进行试验的基础上,在噪声环境、变负载环境和其他数据集下均进行了试验,与CAPS,GRU,CNN,DNN等深度学习模型的对比试验充分说明了该模型具有较好的抗噪能力、泛化能力和通用性。同时,在研究过程中发现胶囊网络处理大量数据时所耗费的时间较长,因此如何减少胶囊网络的训练时间是下一步研究的重点。

猜你喜欢
卷积准确率胶囊
Shugan Jieyu capsule (舒肝解郁胶囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
基于3D-Winograd的快速卷积算法设计及FPGA实现
Shumian capsule(舒眠胶囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
从滤波器理解卷积
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法
一种基于卷积神经网络的性别识别方法