基于多值属性Apriori算法的飞机IDG故障分析*

2021-03-01 01:17孔祥芬张利寒刘敬赟
组合机床与自动化加工技术 2021年2期
关键词:项集置信度部件

孔祥芬,张利寒 ,刘敬赟,王 杰

(中国民航大学航空工程学院,天津 300300)

0 引言

近年来,随着航空公司机队规模的迅速增加[1],以及民航“一二三三四”的总体发展思路和“民航高质量发展”的战略需求,对航空维修提出了更高质量的精细化深度维修要求[2]。而航空维修数据的积累以及数据挖掘技术的迅速发展[3],为飞机深度维修奠定了重要基础。整体驱动发电机(Integrated Drive Generator, IDG)作为供电系统的主要电源[4],结构复杂且先验故障知识难以获得,维修人员难以通过传统方法得到精确的维修结论。因此,从数据挖掘角度出发,对航空维修数据进行关联分析,是提升飞机故障分析能力和深度维修能力的重要保障[5]。

目前学者们已在数据挖掘分析方面做了大量研究,在故障诊断方面,Thukaram D[6]和Jing C[7]等利用支持向量机、主成分分析和神经网络等方法提升了工业过程中的故障分类精度问题;Zhao Y[8]等利用特征提取与贝叶斯网络相结合的方法提升了铁路车载设备的故障诊断效率。在可靠性预测方面,胡丽娟等[9]利用主成分分析与并行关联规则挖掘技术有效预测了配电网的运行可靠性;蔡复青等[10]利用数据挖掘技术分析航空装备日常维修数据,有效预测实战或训练环境下的飞机使用可靠性。在算法挖掘方面,Gunay H B[11]、Buddhakulsomsiri J等[12]利用实际数据提出新的文本挖掘和IF-THEN关联规则挖掘算法,能有效确定故障模式及原因;Sene A等[13]利用关联规则方法创建机上远程医疗信息体系,能有效解决远程医疗资源限制的问题;赵久彬等[14]利用Spark平台提出一种前后部项约束关联规则并行化FRPFP算法,能有效监测滑坡预警。

上述文献对数据挖掘分析具有很好的借鉴意义,但目前大多数研究还集中在类似于机床、传感器等可靠性较低、故障频发的部件及行业内,而对于飞机等高可靠性、高安全性航空产品的分析研究仍然较少。因此,本文以高可靠性部件——整体驱动发电机(IDG)为例,提出一种改进的多值属性Apriori算法,该方法从连接步和剪枝步两个方面提升数据挖掘精度,能有效提升飞机故障诊断能力和深度维修能力,对航空维修提供新的思路和建议。

1 相关知识

1.1 K-means聚类算法

为了实现对数据的深层次挖掘,首先对故障维修数据库进行聚类,本文采用一种常见且较成熟的K-means聚类算法,该算法是一种无监督的机器学习算法,具有简单易理解、聚类速度快等特点。核心是确定对象的中心点,关键是确定k值,选取的k值决定了聚类效果。为获得理想的k值,用轮廓系数评估聚类效果,第i个元素轮廓系数为:

(1)

其中,ni为同簇内第i个元素与其他元素之间的平均距离;簇外选取某一簇m,计算m中所有元素与该元素的平均距离,找出最小值,用mi表示,mi=min{mi1,mi2,…,mij}。

1.2 多值属性Apriori算法

关联规则挖掘是数据挖掘中一项重要技术,Agrawal R等[15]首先于1993年提出关联规则概念,即数据库中项集之间的相关关系,同时又给出了相对应的挖掘算法,但性能较差。之后又于1994年提出了著名的Apriori算法[16],是目前关联规则挖掘领域最具影响力的一种算法,也是许多算法改进和发展的基础。

Apriori算法的核心思想是通过对数据库中不同事务集之间隐含规律的识别和分析,找出其中的强关联关系。其中,关联规则中有两个最重要的概念,分别是支持度(support)和置信度(confidence)。其中,支持度用support(X)表示,即某维度下一个属性值X在数据集D中出现的概率,如式(2)所示;置信度用confidence(X→Y)表示,即属性X和属性Y同时在数据集D中出现的概率,如式(3)所示。如果关联规则结果满足最小支持度和置信度阈值,则认为该条关联规则的前后项是高度相关的。

(2)

(3)

此外,另一个重要概念是提升度(lift),提升度用lift(X→Y)表示,主要用于描述挖掘出的规则是否有用,如式(4)所示;其大小可度量此规则的可用程度,有用规则的提升度大于1。

(4)

Apriori算法的主要思想是利用逐层搜索的迭代方法,Apriori算法的主要过程可以概括为两步:①通过扫描、计数、比较、产生频繁项集、连接及剪枝等步骤产生候选项集,进而寻找所有频繁项集,重复上述步骤,直到不能产生更大的频繁项集为止;②产生关联规则结果,对于每个频繁项集,计算其置信度,输出大于最小置信度阈值的关联规则。

Apriori算法利用支持度、置信度及提升度的计算结果作为依据,挖掘和分析各属性之间潜在的内在关联关系。但是也仍存在一些不足,一是生成候选频繁项集的数量巨大,需要多次扫描数据库,且非常耗时;二是不适用于多维数据的挖掘。因此,基于航空故障维修数据维度高的特性,本文提出将基于多值属性改进的Apriori算法应用于航空故障维修数据故障原因关联规则的挖掘过程中,即在连接步的过程中加入多个维度的判断,并且在剪枝步阶段只考虑特定属性的频繁项,可以有效减少生成的频繁项集,更简洁更高效的发现我们需要的强关联规则。

基于多值属性改进的关联规则由Srikant R等[17]在1996年提出的,其关键思想是以布尔型关联规则的挖掘算法为基础,将其转化为布尔型关联规则之后再通过Apriori算法进行数据挖掘。在IDG部件的故障维修数据中,每一个故障因素下都包含有多个属性值,在挖掘过程中,为了避免出现类似“冬季,夏季→油滤堵塞”这样的无效关联规则结果,所以在Apriori算法的基础上对其进行改进。考虑到我们的研究是结合天气、现象、地域等因素,以挖掘故障原因为主要关注点对故障维修数据进行挖掘,所以在连接步过程中加入对“故障原因”和“故障现象”这两个维度频繁项集的判断,且在规则剪枝阶段只考虑生成“故障原因”的频繁项。 改进算法的主要步骤如下:

算法1:改进的多值属性Apriori算法

输入:IDG部件故障维修数据库D;最小支持度和置信度阈值;

输出:数据库D中的频繁项集L。

(1)C1={candidate,1-itemsets};

(2)L1={c∈C1|c.count≥minsupport};

(3)for{k=2,Lk-1!=Null,k++};

(4)Ck=sc_candidate(Lk-1);

(5)ifCi中的频繁项的属性值not in [‘故障原因’]and not in[‘故障现象’];

(6)delete这条频繁项;

(7)for eachtinD;

(8)C1=subset(Ck,t);

(9)for each候选c∈Ci;

(10)c.count=c.count+1;

(11)Lk={c∈Ck|c.count≥minsupport};

(12)for each item inLk;

(13)if item 的属性值not in[‘故障原因’];

(14)delete这条频繁项;

(15)ReturnL.

2 案例分析

本文搜集某航空公司50架B737飞机近三年的故障维修数据,主要由技术记录本(Technical Log Book, TLB)、保留故障单(Deferred Defect Sheet, DDS)、飞行记录本(Flight Log Book, FLB)、客舱记录本(Cabin Log Book, CLB)、飞机维修日志等组成;对包括飞机编号、检验员、FLB、故障现象、故障原因、故障位置、故障时间、故障地点、在翼时间、飞行循环等用自然语言书写的记录信息,对此进行数据整合,重点分析故障维修数据中故障现象与多种故障原因之间的相关性。主要分为以下几个步骤:

(1)数据预处理。数据在采集、记录、存储过程中由于各种主客观因素会出现缺失、冗余、记录形式不统一等情况,为了得到高质量的数据作出最精确的决策,需要对原始数据进行预处理。主要包括数据清洗、信息筛选等。

(2)关联规则挖掘。对预处理后的维修数据进行K-means聚类分析以及改进的多值属性Apriori算法关联规则挖掘,得到强关联规则以获得故障现象以及各参数与多种故障原因之间的相关性规律。

(3)结果分析。结合IDG各组件故障机理,对关联规则结果进行具体分析。

2.1 数据预处理

一架B737飞机一年约850条维修及维护记录,则50架飞机三年则产生约42 500条数据,其中除掉勤务工作、例行安检之后约15 000条。首先,以Python平台为基础,Pandas函数读取搜集到的故障维修数据,利用Pandas函数删除缺失数据所在数据组;其次,筛选出对故障原因诊断有用的信息,删除飞机编号、检验员等部分无用信息;最后,将剩余数据信息进行类别梳理并转换成便于分析的形式,筛选出与IDG部件相关的故障信息,得到30个故障维修数据(记为M1,M2,…,M30),如表1 所示。

表1 预处理后的维修数据信息表

2.2 关联规则挖掘

2.2.1 K-means聚类分析

针对飞机故障维修数据的特征,在数据预处理阶段对30组故障进行聚类,采用合并层次聚类分析法, K-means聚类将所有故障分为3~6类,通过聚类簇数k的轮廓系数Si对聚类结果进行评估。不同聚类簇数k对应的轮廓系数如表2所示。

表2 聚类簇数-轮廓系数对应关系表

K-means聚类算法是将数据集D聚类为k个簇{C1,C2,…Ck}。首先随机抽取k个聚类质心(μ1,μ2,…,μk),计算每个样本xi的所属类别,目标是最小化平方误差:

(5)

其中,μj是Ci簇的聚类中心,即质心,重新计算类j的质心,其表达式为:

(6)

经反复计算,直到收敛。

由表2可知,故障数据分为5类时进行聚类所得效果最好。对30组故障数据进行K-means动态聚类,结合IDG部件实际故障情况,聚类分析结果如表3所示。

表3 故障聚类结果(k=5)

2.2.2 多值属性Apriori关联规则分析

运用多值属性Apriori算法对预处理后的IDG部件故障维修数据进行关联规则挖掘,为获得比较理想的关联规则,确定关联规则中的支持度和置信度是至观重要的,不同支持度S阈值和置信度C阈值下产生的规则数不同。通过分析设定支持度阈值为0.6%,置信度阈值为50%,得出规则前项含故障现象且规则后项为故障原因的强关联规则共55条,由于篇幅限制,部分结果如表4所示。

表4 IDG部件故障关联规则

续表

在聚类分析的基础上,对B737飞机IDG部件故障维修数据进行深度挖掘和分析,对多因素之间的潜在规律进行识别,得出以下结果:

(1)根据表4中规则6和规则7可以得出高支持度的关联规则,说明IDG部件故障的高频故障原因为压力电门和泵和马达组件故障;其中,泵和马达组件的结构形式为斜盘柱塞泵,长时间工作会导致柱塞缸体等金属件磨损超标;压力电门为非密封式结构,经常受到污染,进而导致电门接触不良,所以应密切关注零部件的清洁及过度使用的问题。

(2)对比规则5和52,可以得出哈尔滨的冬季更容易造成调速器阀芯抱死进而造成发电机掉电,说明低温是造成调速器阀芯抱死的主要原因,所以温度等外界环境因素是影响IDG部件部分故障的关键因素。

(3)根据规则可以得出碳封严磨损和油滤堵塞是造成IDG余油口漏油和IDG压差指示器跳出的唯一原因;其中碳封严与输入轴紧密相连,常常会因为组装时装配技术的欠缺,造成碳封严磨损,所以应密切关注人为因素在飞机故障中的影响。

(4)分析所有故障原因,其中油滤堵塞、磨损超标、阀芯抱死等多个故障都与滑油系统有关,说明滑油系统是影响ODG部件正常工作最重要的原因。

2.3 结果分析

对比传统Apriori算法和改进后的多值属性Apriori算法对IDG部件故障相关因素的关联规则挖掘结果,在不同支持度下,两种算法的运行时间如图1所示。

图1 运行时间和支持度之间的关系曲线

从图1中可以看出改进后的Apriori算法运行时间减少、效率提升,尤其是支持度较小、频繁项集较多的情况下,能在更短的时间内输出更精确的结果。

通过聚类和关联规则分析能更加精确的定位故障发生的位置及原因。结合IDG部件的工作原理,在日常维护阶段对IDG部件提出相关预防建议,以减少故障发生、提升飞机使用可靠性:

(1)针对泵和马达组件及压力电门等高频故障组件,了解其故障机理与具体原因(磨损、污染等)并根据各组件的故障间隔时间进行可靠性分析,计算其可靠度、失效率等相关指标,根据结果及时检修。

(2)针对碳封严等由于人为疏忽、技术欠缺等原因造成的磨损严重,应密切关注人为因素在飞机故障中的影响,加强对人的技术及思想培训。

(3)针对由外界环境因素(地点、季节、温度等)引起故障,应提前做好防护措施,减少故障发生。

(4)IDG部件属于高速旋转的部件,组件之间承受巨大的摩擦力,导致多数故障都与滑油系统有关,所以应密切关注滑油系统的工作状态。结合文献[18],建议每隔1781 Fh对IDG部件进行滑油系统的状态检修。

3 结论

基于航空维修业的发展需求及航空维修数据的逐步积累,本文提出了基于数据挖掘的飞机IDG部件故障关联性分析模型。通过K-means聚类算法得出IDG部件主要的5类故障现象;通过改进的多值属性Apriori关联规则算法,以故障原因为关注点,挖掘出导致故障发生的因素组合,由此总结出高频故障以及人为因素、外界环境和滑油关联系统等因素对IDG部件故障的影响;与传统Apriori算法相比其精度更高、用时更短。根据以上结果及IDG部件的工作机理对预防故障发生可采取的措施提出了一些可行的预防性维修方案,提升飞机使用可靠性。本文仅对B737飞机供电系统中一个IDG部件进行关联规则挖掘,后续分析中可以引入更多系统及零部件,建立更全面的故障维修数据标准化备案模式以及飞机维修管理信息系统。

猜你喜欢
项集置信度部件
硼铝复合材料硼含量置信度临界安全分析研究
基于Siemens NX和Sinumerik的铣头部件再制造
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
部件拆分与对外汉字部件教学
水轮机过流部件改造与节能增效
置信度条件下轴承寿命的可靠度分析
多假设用于同一结论时综合置信度计算的新方法✴
焦利氏秤各部件的修理和改装
一种新的改进Apriori算法*