基于粗糙集和BP神经网络的试验数据质量评估

2021-07-11 08:16庞亮
电子设计工程 2021年13期
关键词:粗糙集装备神经网络

庞亮

(中国人民解放军92493 部队,辽宁葫芦岛 125000)

装备试验数据是各类装备试验活动过程中使用和产生的所有数据的总称,是装备数据的重要组成部分。在大数据时代,高质量的装备试验数据是装备可靠运行、试验数据高效处理,并有效挖掘试验数据潜在价值的基础,是减少人力、物力和提升效率的有效途径。对试验数据质量评价,有助于了解并掌握试验数据的不足,为后续试验数据价值的深度挖掘提供支撑[1-5]。

神经网络算法各要素之间在结构上交互连接、相互影响,具有较强的自我学习能力。而数据质量的各评估指标之间有些规则往往是相互交叉和关联的,应用粗糙集对评估指标进行筛选,在保证能力不变的前提下,可有效去除不相关的冗余指标。因此,文中将粗糙集和BP 神经网络相结合构建评估模型,对装备试验数据质量进行定量评估[6-10]。

1 概述

1.1 粗糙集理论

粗糙集理论是由波兰科学家Z.Pawlak 提出的,是一种主要用于处理不精确或不相容问题的数学工具,通过对各种属性进行约简,从而发掘潜在的信息,在数据挖掘等相关领域得到广泛应用。可以用一个四元组来表示该系统,即:

其中,L={x1,x2,…,xm}为有限的非空集合;A={a1,a2,…,an}为有限非空的属性集合;R为属性a的值域;f为系统函数,f:L×A→R,f(x,a)∈R[11-13]。

1.2 BP神经网络

BP 神经网络是基于误差反向传播学习的多层前馈神经网络,常用的为三层BP神经网络,其原理如下:

网络的三层结构主要包括输入层X、中间层Y、输出层Z。假定理想的输出层为O,中间层的第j个神经元yj,以及输出层的第k个神经元zk分别满足:

其中,wij、aj表示输入层至中间层的权值和阈值;wjk、bk表示中间层至输出层的权值和阈值;f1、f2为激活函数。BP 网络模型是通过对原始激活函数进行迭代训练,动态调整权值和阈值,从而达到实际输出与理想输出之间的误差最小化[14-16]。

2 基于粗糙集和神经网络的试验数据质量评估

2.1 数据质量评估流程

神经网络具有准确的逼近收敛能力和较高的精度,粗糙集算法可有效简化网络模型的训练样本,因此,将两者相结合,就可以得到一种理解方便、收敛速度快的评估模型。具体的试验数据质量评估流程如图1 所示。

图1 试验数据质量评估流程

2.2 数据质量评估指标体系

由于数据的应用范围广泛,应用场景不一,导致对数据的要求多样化。因此,目前还没有一套适合所有数据应用领域的通用数据质量评估指标体系。鉴于装备试验数据具有属性多元、来源多维、分布多地、形式多样等特点,根据装备试验数据工程数据的全生命周期特性,分主观和客观两大类别,构建涵盖十一项指标的装备试验数据质量评估指标体系,具体如图2 所示。

图2 试验数据质量评估指标体系

可信性:指对数据的置信和可靠程度。

可理解性:数据准确表达而无歧义的程度。

规范性:评估是否有数据收集、录入等统一标准规范。

完整性:对数据的结构、内容和其他基本特征进行综合测量。

及时性:反映数据在预期某一时段内对特定应用的及时程度。

易用性:数据能够被访问和使用的程度,以及便于被更新、维护和管理的程度。

重复性:对存在于装备试验相关的各系统内部或者子系统间的特定字段、记录等进行的重复测量。

准确性:数据与实际描述对象的匹配程度。

效用性:数据是否能产生预期效果。

全面性:数据占应收集数据总体的比例。

一致性:在不同地方存储和使用的同一数据的一致程度。

2.3 试验数据质量评估网络

2.3.1 试验数据质量评估元

装备试验数据的质量评估从主观和客观两个属性维度出发,构建评估网络,用X表示主观属性,Y表示客观属性,K、M表示属性的权重,权重比例分别用α和β来表示,μ为相关系数,δ是外部影响因子。对于其中一个评估单元来说,X和Y代表输入,Z代表输出,其表达式为:

其中,属性的权重大小就表示对应的评估指标对装备试验数据质量评估结果的影响程度。

2.3.2 试验数据质量评估网络

精确的评估装备试验数据质量需要将多个评估元交互连接,构成多层复杂的网络评估模型。经过权衡算法的复杂度和评估效果,神经网络采用三层结构即可满足任意精度的逼近。

图3 即为三层装备试验数据质量评估网络,其中,输入X和Y,输出为Z,输出单一分量zi可表示为:

图3 装备试验数据质量评估网络

2.4 数据质量评估模型

装备试验数据质量评估模型可以用六元组的形式表示:

其中,D代表需要进行评估的数据集;I代表对D进行评估时选取的指标,针对不同的测试数据集,从评估指标体系中选取不同的指标;R代表与选取指标相对应的评估规则;E代表对每一项规则R的期望值(取值为0~100);S表示每一项规则R的最终得分值(取值为0~100);J表示指标得分S与期望值E进行对比,并将评估结果划分为合格与不合格两种,达到期望值即为1,否则为0,最终形成信息集。装备试验数据质量评估模型如表1 所示。

表1 装备试验数据质量评估模型

3 试验数据质量评估

3.1 基于粗糙集的信息表约简

在装备试验过程中会产生和使用大量的试验数据,不同的应用场景对评估指标要求不同,因此各项指标得分也会有一定差别,邀请多位该领域权威专家和数据使用者,采用专家打分法对每组数据集的各项指标进行综合打分,结果如表2 所示。

表2 8组数据集的评估指标得分表

其中F表示综合得分。将上述评分结果与相应指标的期望值进行对比,满足期望值即为1,否则即为0,最终可以得到一张如表3 所示的装备试验数据质量评估信息表。

从表3 中可以看出,指标得分I1和I5相同,I2和I6相同,I7和I9相同,因此,三组中每一组只需保留一个,即保留指标I1、I2和I7,剔除指标I5、I6和I9,得到如表4 所示的评估约简信息表。

表3 8组数据集的评估信息表

表4 8组数据集的评估简约信息表

从表4 可得出,D={D1,D2,D3,D4,D5,D6,D7,D8},I0={I1,I2,I3,I4,I7,I8},则等价关系I1,I2,I3,I4,I7,I8有以下等价类:

通过不可分辨关系计算,则关系ind(I0)可以得到以下等价类:

根据上述结果可知,指标I1、I3和I8与I0是信息等价的,可简化掉,因此得到了约简后的指标集{I2,I4,I7}。通过粗糙集算法将初始的9 项指标约简成3 项核心的评价指标。

3.2 基于BP神经网络的质量评估预测

当条件属性比较多时,采用粗糙集算法得到的决策规则较为复杂,且评估结果与指标之间的关系通常并不直观,因此,可采用BP 神经网络对装备试验数据的质量进行预测评估。

采用通过约简得到的指标集合和相应的原始数据表作为最新的学习样本集,该学习样本集中仅保留了影响质量评估结果的几项核心指标。将原始数据集的数据质量评估得分表作为训练样本,对BP 神经网络模型进行训练。经过粗糙集的约简,可以得到模型输入数量N为3,输出数量M为1,中间层神经元的数目经过对比2、3、5、7、9 后选取网络泛化能力最佳的5 个。装备试验数据质量评估网络模型如图4 所示。

图4 装备试验数据质量评估网络模型

按照BP 神经网络的一般设计原则,中间层神经元的传递函数采用S 型正切函数,输出层神经元的传递函数采用S 型对数函数,并对其进行归一化与反归一化。简化后的指标集{I2,I4,I7} 分别作为评估网络的输入,装备试验数据质量评估值F作为评估网络的输出。在模型训练过程中,在正向传播时,训练样本数据从网络模型的输入端{I2,I4,I7} 输入,经过包含5 个神经元的中间层,得到输出值F,将F与期望值进行比较,当误差较大时,进行反向传播,即将比较后得到的误差从输出层经中间层,反向传导到输入层,然后不断调整各层的权重值,通过多次迭代计算,最终使输出误差达到理想目标0.01 以内,停止训练,并得到最终训练好的各层权值与完整的网络模型。将模型用于该数据集的质量评估预测,就可以得出该数据集的预测综合评估质量F,并与实际评估值进行对比,如图5 所示。

图5 预测评估结果与实际评估结果对比图

由图5 可知,通过粗糙集-神经网络模型预测的数据质量结果与实际值曲线基本吻合,误差很小,因此,可以采用此模型对该类型装备试验数据资源开展数据质量评估。针对不同类型的装备试验数据集,当添加了新的数据质量评估指标时,可以采用该方法对模型重新进行修正和训练。

4 结束语

装备试验数据质量评估是对装备试验产生和使用的数据进行质量定量评估,有效提升数据质量可提高装备试验效率,提升装备试验数据潜在价值,具有重要的理论意义。文中在BP 神经网络模型前端添加粗糙集算法,通过属性约简减少了BP 神经网络评估模型中的评估指标和样本数量,有效提高了评估效率,增强了装备试验数据质量评估的科学性和客观性,且预测评估误差较小。基于粗糙集-神经网络模型的装备试验数据质量评估模型,有效结合了粗糙集和BP 神经网络两种算法的优势,是装备试验数据质量评估的新尝试。

猜你喜欢
粗糙集装备神经网络
好装备这样造
港警新装备
基于Pawlak粗糙集模型的集合运算关系
防晒装备折起来
神经网络抑制无线通信干扰探究
基于二进制链表的粗糙集属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用