基于LSTM-CNN 的双路径滚动轴承故障诊断

2024-01-10 17:05景斯桐吴东升
沈阳理工大学学报 2024年1期
关键词:故障诊断卷积轴承

景斯桐,吴东升

(沈阳理工大学自动化与电气工程学院,沈阳 110159)

滚动轴承是机械运转的核心部件,据文献[1]估计,40% ~70%的电磁驱动系统故障是由轴承故障引起的。 轴承损坏后会在轴承部件故障区域的振动信号中产生脉冲响应,因此振动信号常作为诊断轴承故障的主要指标[2-4]。

传统的轴承故障诊断一般过度依赖于专家经验提取故障特征,难以避免因主观因素导致的分类错误。 深度学习方法的出现为轴承故障诊断提供了新的思路,通过深度学习,可从原始数据中自动提取感兴趣信息,确保决策的鲁棒性。 文献[5 -6]将一维输入信号重构为二维特征矩阵,并将简单的二维卷积神经网络(CNN)应用于该特征矩阵,用以对轴承损伤进行分类;文献[7]采用复杂的预处理方法将时域信号转化为灰度图像,实现了更深的二维CNN 诊断三个不同数据集的轴承故障;文献[8]提出了一种完全基于数据驱动、不依赖于模型自滤波过程的变分模态分解方法(VMD),消除了指数的直流偏移,并与经验模态分解(EMD)进行了比较;文献[9]提出了基于变分模态分解的多尺度排列熵(VMD-MPE)和基于粒子群优化的支持向量机(PSO-SVM)相结合的方法诊断轴承故障;文献[10]提出了在现有希尔伯特- 黄(HHT) 过程中加入傅里叶变换(FFT),研究结果表明了在HHT 中使用频域方法的有效性,证明了FFT 在分析故障轴承非平稳振动信号中的无效性;文献[11]提出了FFT 及时间抽取(DIT)相结合的方法,并用XGBoost 模型验证了诊断效果;文献[12]提出了一种能够处理原始振动信号的一维CNN,并使用扩张卷积和残差连接提高对噪声和域移动的鲁棒性,但增加了调整模型参数的复杂性;文献[13]提出了一种扩展深度卷积神经网络(EWDCNN)和长短时记忆网络(LSTM)相结合的方法,提升了一维卷积的精确度,但串联结构及多层参数也增加了模型训练的难度。

实际情况中,因为系统很少允许零件运行到故障状态,并且全卷积网络不具有从运行数据中捕获原始时间信息的远程依赖能力,当以高采样频率对振动信号进行采样时,由于信号中有关联部分相应的距离较远,该问题表现更加明显。 此外,卷积路径相对较浅的性质也限制了网络捕捉低级特征的能力。 对时序振动信号进行信号处理虽避免了人工提取特征的主观性,但会使原始振动信号中的时序特征部分被遗弃,造成特征缺失;同时,将振动信号转化为二维矩阵输入卷积网络,不可避免地丢弃了部分特征数据,并添加了部分冗余特征,使二维CNN 网络的优势变为劣势;一维卷积网络(WDCNN)虽以较大卷积核对一维振动信号直接进行特征提取,同时减少噪声干扰,但其对振动信号中的时间信息敏感度不强。

为更好解决上述问题,本文提出一种新的时间序列数据故障检测与诊断的深度学习模型。 该方法直接作用于原始时态数据,避免了人工特征提取或噪声去除的需要。 首先,网络设计成包含深度卷积路径和LSTM 路径的双路径结构,深度卷积路径用于特征提取、学习输入信号特征的复杂表示形式,LSTM 路径用于帮助网络捕获大量跨度长的动态时间特征,实现远距离依赖关系的建立;其次,使用注意力机制使网络更聚焦关键信息,以提高最终的诊断精度。

1 相关理论

1.1 CNN

CNN 是一种前馈神经网络,其结构包括多个卷积层、池化层和输出层。 卷积层负责执行特征提取任务,池化层用于降低数据维度并保留关键信息,而输出层则根据提取到的深层特征进行预测以获得期望的输出结果。 CNN 的基本结构如图1 所示。

图1 CNN 基本结构Fig.1 Basic structure of simple CNN

由图1 可知,每个卷积阶段均包含一组卷积滤波器和池化层。 卷积滤波器通过一组权重与输入数据进行卷积,然后应用非线性激活函数从输入数据中提取高级特征;池化操作是对提取到的特征进行降维处理,减小其空间尺寸,同时通过压缩特征来凸显主要信息。 随着输入数据在卷积阶段从左至右的传递,网络逐渐学习到与特定问题更相关的特征。

1.2 LSTM

LSTM 循环神经网络架构如图2 所示,通过引入记忆细胞和门控机制以提高从长输入序列中学习特征的能力,克服训练普通循环神经网络(RNN)的困难。 多个LSTM 单元连接在一起,排除了普通RNN 体系结构中常见的梯度消失问题。

图2 LSTM 循环神经网络架构Fig.2 LSTM recurrent neural network architecture

t时刻LSTM 状态的计算公式为

式中:xt为输入向量;ft为遗忘门在t时刻的激活向量;it为输入门在t时刻的激活向量;ot为输出门在t时刻的激活向量;ct为t时刻的记忆细胞激活向量;ht为t时刻的隐藏状态激活向量;Wf、Wi、Wo为各自门的输入内核;Uf、Ui、Uo为各自门的循环内核;bf、bi、bo、bc为偏差;σ为Sigmoid 激活函数;tanh 为双曲正切激活函数。

1.3 注意力机制

通过注意力机制可以加强LSTM 对于远距离依赖信息的捕捉能力,摒弃不关键信息,加快网络模型训练速度。 其公式为

式中:X代表输入;Y代表输出;s表示权重分配;Conv1D 表示一维卷积;GAP 表示全局平均池化。

2 基于LSTM-CNN 的双路径故障诊断模型

2.1 模型结构

本文提出的LSTM-CNN 双路径滚动轴承故障诊断模型结构如图3 所示。

由图3 可见,深度卷积路径包含五个卷积阶段用于特征提取、一个降维阶段用于压缩提取到的特征矩阵。 每个卷积阶段包括:一组1D 卷积滤波器,从输入信号中学习有意义的特征;整流线性单元激活函数(ReLU),将非线性引入网络;批归一化模块[14]通过减少内部协方差偏移优化训练过程;最大池化模块对输入进行下采样,增强局部平移不变性和特征映射。

深度卷积路径的第一个卷积层使用宽滤波器,抑制输入信号中的高频噪声并捕获长距离依赖关系。 其余卷积层使用较小的卷积核,使卷积路径能够获取输入信号的深层特征。 此外,在LSTM 路径的RNN 模块之前,添加了一个1D 卷积层,抑制输入信号中的高频噪声,有助于学习有用的特征以输入到RNN 模块。

双路径架构中的RNN 模块主要负责捕捉跨越多个时间步长的动态时间特征,LSTM 路径学习到的全局时间特征可以弥补卷积路径感受野的局限性。 注意力模块筛选关键特征,并将重新分配权重的特征向量传送到全连接层。 最后,特征向量与Softmax 函数结合,提高分类结果的准确性。

2.2 模型训练

为了在训练中更新模型权重,使用随机梯度下降优化器(SGD),并使用类别交叉熵函数评估网络的训练和验证损失。 类别交叉熵函数将模型输出预测的分布向量与一个真值标签向量进行比较,模型的输出越接近该向量,该次训练的损失就越低。 在训练过程中,采用Recurrent dropout 函数[15]和Standard dropout 函数[16]来减少过拟合现象,提高模型的泛化能力。 在RNN 单元中,输入和隐藏状态均以0.1 的概率应用Recurrent dropout,该Recurrent dropout 仅针对更新单元状态的部分,以使某些元素在长期记忆中不再起作用。为了防止过拟合,在卷积路径和LSTM 路径上,模型在级联之前均以0.5 的概率应用Standard dropout,从而随机丢弃部分神经元。

3 实验结果及分析

3.1 实验数据集

为验证本文提出的LSTM 和CNN 双路径模型在故障诊断应用中的有效性,使用凯斯西储大学轴承数据中心的基准轴承故障数据集。 具体故障描述见表1。

表1 轴承故障描述Table 1 Description of bearing failures

由于深度学习模型需要大量数据进行训练,但在故障状态下机器很难长时间运行,可用的数据较少。 为此,使用数据增强方法扩充训练数据集,降低过拟合风险。 具体方法为采用滑动窗口技术从输入序列中提取多个重叠样本,每个输入序列增强后被赋予与原始输入序列相同的故障标签,使模型能更好地学习和识别故障。

3.2 模型参数

LSTM-CNN 双路径滚动轴承故障诊断模型参数如表2 所示。

表2 LSTM-CNN 双路径滚动轴承故障诊断模型参数Table 2 Parameters of LSTM-CNN dual-path rolling bearing fault diagnosis model

LSTM 路径由128 个RNN 模块组成,因此在捕捉长期动态信号的能力和学习复杂性之间能取得良好的平衡。

3.3 实验结果分析

为了验证提出的LSTM-CNN 双路径滚动轴承故障诊断模型的准确度,将其与SVM[17]、MLP、CNN、LSTM、WDCNN[18]五种方法进行实验比较。 所有实验均在相同环境和相同数据集下进行,实验结果如表3 所示。

表3 SVM、MLP、CNN、LSTM、WDCNN 与LSTM-CNN 滚动轴承故障识别率对比Table 3 Comparisons of SVM,MLP,CNN,LSTM,WDCNN and LSTM-CNN rolling bearing fault recognition rates

由表3 可知,LSTM-CNN 诊断模型的识别效果好于对比模型。 深度学习方法明显优于传统的机器学习故障诊断方法,并且因为数据结构的特殊性,LSTM 网络比CNN 网络诊断效果更优,这得益于LSTM 能够接受可变长度的输入并具有强大的对于时间的建模能力。 而WDCNN 模型因具备更深层次的卷积结构,并且相比于LSTM 来说,具有更少的参数量,可以保证尺度、移位和轴承故障检测失真不变性。 本文提出的LSTM-CNN 双路径模型,很好地结合了CNN 和LSTM 的优点:一维卷积在进行特征提取时信息不丢失,还能过滤数据,消除噪声干扰,提供给RNN 模块可靠的序列数据;双路径模型结构既能实现深卷积结构捕获可靠的、复杂的输入信号特征,还能通过RNN 模块对大量的远距离、跨越时间的动态特征进行有效提取;通过注意力机制,针对级联后的特征进行权重的重新分配,最终提升了电机轴承故障诊断识别率。

在模型训练过程中,网络会随迭代过程记录模型的故障识别准确率和损失。 实验比较了LSTM-CNN 双路径模型和WDCNN 次优模型,训练过程准确率曲线如图4 所示。

图4 训练过程准确率曲线Fig.4 Accuracy curves of training process

由图4 可知,基于双路径的LSTM-CNN 模型在60 次迭代后准确率接近100%,相较于单路径的WDCNN 模型,呈现明显优势。

损失曲线代表模型的收敛速度,LSTM-CNN的损失曲线如图5 所示。

图5 LSTM-CNN 的损失曲线Fig.5 Loss curves of LSTM-CNN

由图5 可见,基于双路径的LSTM-CNN 模型的收敛速度很快,相比WDCNN 模型能更好地拟合数据的真实标签,表明该方法能直接在振动信号中学习更加全面的特征。

LSTM-CNN 模型故障分类的混淆矩阵如图6所示。 图中:B 代表球断层;IR 代表内圈故障;OR代表外圈故障。 图6 中纵坐标对应的每行数据代表此类别故障被错误判断为其他类别故障的百分比,横坐标对应的每列数据则代表其他类别故障被错误判断为该类故障的百分比。

图6 LSTM-CNN 混淆矩阵Fig.6 LSTM-CNN confusion matrix

由图6 可知,除故障大小为0.007 英寸的内圈故障和故障大小为0.007 英寸的球断层故障外,网络取得了接近100%的故障识别精度,表明基于双路径的方法能够较为准确地判断故障的位置及损伤情况,具有良好的故障分类能力。

4 结论

本文提出了一种基于LSTM-CNN 的双路径轴承故障诊断模型,模型能直接对原始振动信号进行处理,实现端到端的故障诊断,结论如下。

1)引入较宽的一维卷积,有效地抑制了原始输入信号中的高频噪声。

2)设计双路径结构,结合LSTM 路径在时间维度上提取的不同信息特征和深卷积路径提取的局部特征的优势,与单独的LSTM 模型和CNN 模型相比,本模型具有更好的准确性。

3)引入注意力机制,对关键信息更加关注,使得在同等内存条件下,模型训练收敛速度更快,减少故障诊断的资源投入。

猜你喜欢
故障诊断卷积轴承
轴承知识
轴承知识
基于3D-Winograd的快速卷积算法设计及FPGA实现
轴承知识
轴承知识
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
因果图定性分析法及其在故障诊断中的应用
一种基于卷积神经网络的性别识别方法
基于LCD和排列熵的滚动轴承故障诊断