基于PCA-RF 的永磁电机故障诊断

2021-12-15 02:38禹杭高海波付博林治国尚前明盛晨兴
应用科技 2021年6期
关键词:决策树时域电机

禹杭,高海波,付博,林治国,尚前明,盛晨兴

1.武汉理工大学 能源与动力工程学院,湖北 武汉 430063 2.中船黄埔文冲船舶有限公司,广东 广州 510000

永磁同步推进电机作为一种新型的电机,相对传统的同步电机长度和体积降低了40%,且因其具有高效率、高功率密度等优点,使得永磁同步电机的应用愈加广泛。电机在运行过程中一旦发生故障,会对设备的生产、安全等造成不同程度的影响,并产生难以估计的损失,因此开展其故障诊断研究工作具有重大意义[1]。永磁电机振动信号中蕴含大量特征信息,利用振动信号对电机进行故障诊断是目前的研究热点。

由于永磁电机运行环境包含诸多复杂多变的因素,采集到的振动信号往往是复杂的非周期、非线性信号,其信号随机性大,幅值波动性强,特征提取困难。对此近年来关于电机的特征提取与故障诊断已有较多研究,常用的方法可分为时域法[2]、频域法[3]及时频域法[4]。其中基于时域特征的故障诊断方法多利用智能化的方式来实现。Xu Tongle 等[5]提出了一种基于局部均值分解(local mean decomposition,LMD)形态学滤波和最小二乘支持向量机(least square support vector machine,LS-SVM)的旋转机械故障诊断方法,对振动信号混合降噪,再用LMD 分解得到的能量比特征作为故障特征,实现了轴承的故障诊断;陈勇等[6]用定子电流信号和振动信号的频谱特征融合作为匝间短路故障判断依据,结合改进小波包变换算法与快速傅里叶变换,实现了永磁电机匝间短路的故障检测;黄文静[7]提取原始信号的时域特征参数均值、标准差、峭度、偏度、样本熵,经LMD 分解得到的能量特征来表征其轴承真实运行状态,用粒子群优化的BP 神经网络得到了较好的诊断效果。尽管以上方法都取得了不错的诊断结果,但是并没有分析不同特征信息之间相互影响的作用,难免会丧失特征的部分信息,对故障分类会造成一定影响。较少的特征参数涵盖信息较少,较多的特征参数会增加诊断难度,选取合适的特征参数及从不同角度利用时域数据对特征进行提取是研究难点。实际工程中,故障信号的时域特征随着电机运行状态而变化。不同的故障类型、不同故障深度下的时域特征会有所重叠,会对分类精度产生影响[8]。

针对以上电机振动信号非周期、非线性、特征提取复杂且困难的问题,本文提出了一种主成分分析与随机森林的永磁电机故障诊断方法。首先采集了永磁电机原始时域振动位移信号,再将原始时域信号以15 个转速周期分成若干段,分别提取每段共13 个时域特征和数学统计特征,然后引入主成分分析法对特征信号进行降维去噪,最后将提取后的二维特征信号使用随机森林进行故障分类。

1 诊断模型理论基础

1.1 主成分分析法

在用统计方法研究多变量问题时,变量个数太多会增加算法运算的复杂性。在很多情形,变量之间有一定的相关关系,当2 个变量之间有一定相关关系时,可以解释为这2 个变量之间具有重叠信息。为了解决该问题,设法将原来变量重新组合成一组新的互相无关的几个综合变量。引入主成分分析法(PCA)对信息进行处理,核心思想是将高维相关联系的特征减为少数不关联特征,同时尽可能多地反映原来的信息[9]。本文引入PCA 方法对提取的13 组特征数据进行降维去噪,具体方法如下。

假设输入的数组有m个特征,共有n组数据,输出得到二维的拓扑结构,输出的神经元个数为j,具体的向量过程如下。

1) 输入(n,m)特征矩阵。

2) 相关性分析。

3) 标准化数据。

4) 归一化处理。

式中n和m是式(1)中标准化后的数据样本对应的维度。X(1)是归一化之后的特征矩阵,目的是为让数据结果映射在(0,1)。

5)求协方差矩阵。

6) 主成分计算。

式中:Zk为第k个主成分(k≤m),vk是其方差贡献率。

用方差Dvar来表示该成分所含信息的多少。在所有的线性组合中选取的F1方差最大,故称F1为第一主成分。如果第一主成分不足以代表原来特征的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分。依此类推可以构造出第三、第四,……,第Q个主成分[10]。通常用方差贡献率来表示各主成分的方差值占总方差值的比例,一般方差贡献率超过90%就代表该成分足以涵盖特征的大量信息。

1.2 随机森林模型

随机森林算法是由Leo Breiman 和 Adele Cutle等提出[11-12]的,它结合了Breimans 的 Bootstrap aggregating 和 Tin Kam Ho 的 random decision forests 方法,是一种由多棵决策树组成的集成分类器。由于随机森林算法的强抗噪能力,且能评估各个特征在分类问题上的重要性,常用于密码学[13]、生物信息学[14]、生态学[15]等领域。本文用随机森林算法来处理电机运行过程中振动信号的随机性强、噪音大等问题。

随机森林由多个决策树组成,每个决策树是一个树结构。其中每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个阈值上的输出,而每个节点存放一个类别。决策树一般模型如图1 所示。

图1 决策图一般模型

随机森林是决策树基础上的衍生,首先输入数据集D={Xi,Yi},其中Xi∈Rk,Yi∈{1,2,···,C};再随机建立由多个决策树{g(D,θu),u=1,2,···,U}组成的森林,每个决策树之间相互独立。每当有数据输入时,每个决策树根据相应的分类属性对其判断,将投票多的类别作为该输入的分类[16]。具体流程如图2 所示。

图2 随机森林流程

1)从训练集样本中有放回地随机选取N个样本作为训练子集,且此训练子集约为原始训练集的三分之二[17],以此来训练一个决策树,作为决策树根节点处的样本。

2)若每个样本中含有U个属性,决策树的每个节点需要进行分裂时,随机的从这U个属性中选取出u个属性,且定义满足条件远小于U,防止局部最优。然后从这u个属性中采用某种策略来选择一个属性作为该节点的分裂属性。

3)决策树的形成过程中每个节点都按照步骤2)来分裂,直到不能分裂为止,且决策树形成过程没有剪枝。

每棵决策树都会产生一个决策,多棵决策树则会产生多个决策,被投票数最多的决策作为最终诊断结果。

2 实验介绍

本文所用船舶电力推进系统永磁电机振动信号相关数据样本均出于推进电机性能综合实验室,实验台架如图3 所示。

图3 实验台架

该永磁电机采用的是众联能创T 系列电机,TZ205XS70K01 型船用电动机和传感器相关参数如下:额定电压,DC350 V;输入电压,DC240~420 V;额定转速,3 000 r/min;额定功率,55 kW;效率(额定功率时),大于等于95%;过载能力1,110%额定电流(T≤60 s);过载能力2,150%额定电流(T≤10 s);防护等级,IP44;冷却方式,水冷;旋向,逆时针;控制方向,矢量控制;体积,365×305×232 m3;流量,8~12 L/min;净质量,70 kg;传感器类型,压电式传感器;采样频率,20 kHz。现以20 kHz 采集电机的一维振动信号,设置4 种工况如下:G1 为正常工况;G2 为转子偏心;G3 为定子短路;G4 为轴承内圈故障。采用Matlab 软件绘制时间与振动位移的关系如图4~7 所示。通过实验台提取正常工况1 000 000 个数据,转子偏心800 000 个数据,定子短路800 000 个数据,轴承内圈故障700 000个数据。可见时域信号并无明显规律,无法直观地辨识正常工况和故障工况,需要通过智能算法进行辨识。

图4 正常工况

图5 转子偏心

图6 定子短路

图7 轴承内圈故障

3 特征处理

由于电机运行环境复杂,且提取的振动信号的数据量大,且没有明显的周期性,难以进行常规诊断。对此运用PCA-RF 方法对电机以时间序列运用数学处理方法进行特征提取、降维,进而进行故障诊断,基本流程如图8 所示。

图8 PCA-RF 流程

1)数据分段。电机额定转速为3 000 r/min,采样频率为20 kHz,视每转为一个周期,每周期包含400 个数据样本。为选择合适的时间长度来表征每段时域信息的特征,避免小周期信号波动的随机性,故选取15 个周期作为1 个数据样本。时域中的时间顺序将每6 000 个数据作为一个时间窗口,故正常工况数据中150 段数据样本,共6 000×150 个数据;转子偏心含120 段,共6 000×120 个数据;定子短路含120 段,共6 000×120 个数据;轴承内圈含100 段,共6 000×100 个数据。

2)特征提取。提取每6 000 个数据中的典型时域特征参数包括最大值(Pmax)、最小值(Pmin)、方差(Pvar)、标准差(Pstd)、均值(Pmean)、峰度(Pkurtosis)、偏度(Pskew);数学统计特征包括每6 000 个数据中前5%分位的数值(P5%)、前95%分位的数值(P95%)、前99%分位的数值(P99%)、中位数(Pmedian)、总数之和(Psum)、绝对值之和(Pabs_sum)、典型时域特征参数和数学统计特征共累计13 个特征参数。

3)特征降维。将每段时域特征数据利用PCA 降维去噪,将13 个特征数据降为含有高度组合信息的2 个主成分。

4)随机森林诊断。将PCA 处理的2 个主成分作为二维输入特征,实现了对数据的降维去噪,大大减少了算法诊断的复杂性。将二维数据引入随机森林模型,随机产生20%的测试集得出诊断结果。

3.1 数据分段

电机运行包括正常工况、转子偏心、定子短路、轴承内圈故障共4 个工况,以每6 000 个采样数据为时间窗口(490,6 000)的数据矩阵,这490 行数据的前150 行为正常工况数据,命名为标签0,后续的120 行、120 行和100 行分别为标签1、标签2 和标签3,分别对应转子偏心、定子短路和轴承内圈故障等3 种故障。取每种工况的首行数据如表1所示。

表1 原始数据矩阵

3.2 特征提取

将原始一维数据以时间分段之后,形成490 行、6 000 列时间矩阵,并以每行数据进行特征提取,与文献[18-19]有所不同,前人所做的研究更多的是将典型时域特征进行特征提取,本文将典型时域特征参数和数学统计特征参数作为PCA 的降维去噪特征参数,把一维振动信号当作大量数字,从数学统计层面对数据进行信息挖掘,从而对数据进行更有效地特征提取。一维振动信号的数据共13 个统计特征,组成(490,13) 的特征矩阵,列举正常工况下的前5 行的特征数据,如表2 所示。

表2 特征矩阵部分数据

由表2 可见,正常工况下,即使是不同时间窗口下同种特征参数的数据差异也很小。可见选取涵盖了15 个转速周期的数据样本,避免了只提取小周期信号波动对特征提取造成的影响,为故障模型的诊断降低了难度。

3.3 PCA 降维去噪

PCA 方法经常用于基础数学的统计分析,对于以上13 个时域特征和数学统计特征有很好的降维去噪作用。将13 个数学统计特征进行主成分分析,得到第一成分方差贡献率(指各主成分的方差值占总方差值的比例)约为99.6%,第二成分方差贡献率约0.4%。一般认为第一主成分的方差贡献率超过90%,则经过降维去噪处理后的第一成分就可以涵盖大量信息。

将4 种工况特征可视化,其特征为无量纲量,二维分类散点图如图9 所示。可见经过PCA 处理的特征具有明显区分度,为后面的诊断模型提供了可靠数据。

图9 4 种特征可视化

4 故障诊断及对比

将主成分分析后降维去噪的2 个主成分作为含有大量信息的特征引入随机森林模型。其中构建的决策树个数为50 个,4 种工况下共490 个故障类型,随机选取其中20%(98 个类别)作为测试集。表3 为输出分类器的混合矩阵。

表3 分类器输出的混合矩阵

由输出的混合矩阵可见故障得到了较准确分类,本案例中诊断精度高达98.97%。可以看出,本文运用PCA-RF 方法对永磁电机的故障诊断有很高的诊断精度。

4.1 不同特征数量下的模型精度分析

13 个统计特征同时引用时可达到98.97%的准确率。为探寻特征提取个数以及数学统计特征对诊断精度的影响,只取7 个典型时域特征进行降维带入随机森林模型,诊断精度为86.7%。将剩下的6 个数学统计特征依次加入,诊断精度分别为88.7%、89.7%、93.8%、96.9%、97.9%和98.97%。

经分析可知,在常规时域特征不能很好地涵盖信息特征时,加入几个数学统计特征可以有效提高PCA-RF 的诊断精度。因为主成分分析法本质上是一种数学统计方法,对数学统计特征参数有很好的识别作用,加入数学统计特征可从最大程度上保留原始信号的有效信息,以此全面反应电机的运行状态。

4.2 不同传统诊断方法的对比

传统机器学习诊断方法大多将典型时域特征作为输入特征进行分类。传统机器学习算法虽然模型简单,但在面对大量多类特征或变量,且样本属性有关联时,对于非线性问题难以找到合适的参数。由于本文典型时域特征与数学统计特征涵盖的信息类型有所重叠或冲突,且13 个特征数目较多,传统机器学习算法诊断准确率反而很低,降低特征数将典型时域特征作为输入特征能取得更好的诊断效果。现将PCA-RF 算法与传统分类算法作对比,提取均值、最大值、最小值、标准差、方差、偏度和峰度7 个典型时域特征作为特征输入,转子偏心为标签0,定子短路为标签1,轴承内圈故障为标签2,正常工况为标签3。与极限学习机(extreme learning machine,ELM)、概率神经网络(probabilistic neural network,PNN)、广义回归神经网络(generalized regression neural network,GRNN)诊断精度作对比,取420 个样本为训练集,70 个样本为测试集。诊断结果如图10~12 所示。

图10 极限学习机准确度

图11 概率神经网络准确度

图12 广义回归神经网络准确度

传统算法ELM、PNN、GRNN 的诊断精度分别为87.14%、95.71%、72.85%。由于不同算法适用的特点不同,导致不同的分类算法有不同的诊断精度,诊断效果并不能达到本文提出的PAC-RF算法98.97%的诊断精度。

本案例采用不同算法所用时间的对比如表4所示,可见在采用多特征时,PCA-RF 诊断方法比传统机器学习方法诊断速度有了极大改善。

表4 不同算法在电机诊断中的时间对比

5 结论

针对永磁电机振动信号特征提取困难且复杂、故障难以辨识的问题,本文利用电机实验平台,提取电机的正常和故障工况数据,提出了主成分分析法,并结合随机森林算法建立了PCA-RF的诊断模型。分析实验结果可得出:

1)引入PCA 方法,克服了典型时域特征和数学统计特征对信息涵盖的重叠性以及单一特征的不充分性,实现了数据的最大化利用。

2)相较于传统分类算法ELM、PNN、GRNN等,PCA-RF 的双去噪方法对电机故障有更高的诊断精度,更快的诊断速度。

3)本研究从数学统计层面对数据进行了进一步挖掘,拓宽了电机故障特征提取的研究思路,具有一定的工程应用前景。

猜你喜欢
决策树时域电机
关于电机滚动轴承的选择与计算
瞻望电机的更新换代
欢迎订阅2022年《电机与控制应用》
一种针对不均衡数据集的SVM决策树算法
基于时域信号的三电平逆变器复合故障诊断
决策树和随机森林方法在管理决策中的应用
电机隐忧
基于极大似然准则与滚动时域估计的自适应UKF算法
基于决策树的出租车乘客出行目的识别
基于时域逆滤波的宽带脉冲声生成技术