基于胜率预测的空战关键节点确定方法

2024-02-23 09:14刘会斌瞿崇晓夏少杰朱燎原范长军

空军工程大学学报 2024年1期

张诚, 刘会斌, 瞿崇晓, 夏少杰, 朱燎原, 范长军

(中国电子科技集团公司第五十二研究所,杭州,311100)

在现代空战中,机载武器的作战效能和飞行员的作战能力的充分发挥是克敌制胜的关键。世界各大主要军事强国历来高度重视空战的战术对抗训练及考核。随着计算机技术的发展,外军先后开发了多代空中对抗训练系统,不仅对系统的功能和性能要求越来越高,训练效果也越来越贴近实战[1]。训练评估已成为我军推进军事训练科学化、精细化的重要手段[2]。

无论是实战训练评估还是空战系统仿真训练评估,大多数情况下都需要由训练评估人员根据对战回放数据进行人工评估,这个过程既耗时又难以迅速发现关键节点。目前,国内外对于空战训练评估的研究主要侧重于训练评估方法,较少关注如何缩短评估时效[3-7]。因此,如何有效缩短训练评估时间、提高评估效率,正成为研究热点。对此本文提出一种基于胜率预测的关键节点确定方法。

1 总体方案与流程

本文方法基于红蓝双方进行空战模拟对抗的场景,通过数据接口获取空战对抗的实时态势数据。在对数据进行筛选和预处理后,将其输入训练平台中,并基于长短期记忆网络(long short-term memory, LSTM)训练实时胜率预测模型。在模型训练完成之后,将经过预处理的空战实时对抗数据输入训练好的胜率预测模型,以预测红蓝双方的实时胜率。针对红方,对比当前时刻与前一时刻的胜率,做出如下判定:当胜率差的绝对值超过预先设定的阈值时,即认为当前时刻发生了关键事件,并将当前时刻确定为关键事件节点。

采用本文提出的方法,空战训练评估人员在进行训练评估时无需回放全部对抗数据,只需要回放被本方案认定的关键事件节点,判断导致该时刻实时胜率发生超出阈值变化的原因,就可以更高效地评估机载武器和飞行员的作战能力,同时也有利于对训练过程中的战术运用及武器运用的效果进行复盘。具体流程见图1。

图1 基于胜率预测的空战关键节点确定方法流程

2 方法原理与技术实现

2.1 训练数据采集与预处理

胜率预测模型的训练需要大量数据的支撑,这些数据的数量和质量都将影响模型的准确率[8-10]。本文通过在自研的仿真推演系统中模拟红蓝双方的空战对抗来获取训练数据。该仿真推演系统可支持自定义想定,实现不同数量、不同挂载、不同机型的红蓝双方战机推演对抗。具体地,在系统中通过随机初始化机型、初始位置、挂载等想定来进行空战仿真推演,并从数据接口获取态势数据并保存。在此基础上,对每架飞机的态势数据进行筛选,以期提升训练效果。筛选后的态势数据项见图2。

图2 优选的态势数据构成

数据收集完成后,对态势数据进行筛选和归一化,将类别数据编码成One-Hot的形式,并对数值数据进行极大极小值归一化:

遍历所有对局每一时刻的态势数据,根据当前一局的胜负情况给出该局所有时刻态势数据的对应标签。标签根据胜负状态来确定,即若某一局蓝方战败红方胜利,则将该局所有时刻的态势数据标签都置为[1,0];若某一局红方战败蓝方胜利,则将该局所有时刻的态势数据标签都置为[0,1]。

2.2 基于LSTM网络的胜率预测模型

在设计与训练胜率预测模型之前,要先将数据样本转化成特定的数据结构,以便于适配LSTM神经网络。默认红蓝双方最大的飞机数量为10架,则每个数据样本对应一个长度为20的序列,其中的每一项对应一架飞机的数据,也即第2.1节描述的数据采集与预处理后的态势向量。若红方或蓝方未满10架,则将其数据序列对应的位置以零填充。如此一来,一个数据样本就转变成一个按照红蓝方飞机编号排序的长度为20的数据序列。为了能够分析出这些序列数据中的隐藏特征,本文选用长短期记忆网络结构,并设计了一个专用的LSTM模型来作为胜率预测的模型。

LSTM是一种特殊的循环神经网络,被设计用来处理和预测序列化数据,如时间序列、语音信号、自然语言文本等。LSTM网络的核心组件是记忆单元,它通过维护一个内部状态来保留长期依赖信息[11-14]。

LSTM网络的结构比传统的循环神经网络更加复杂,但这种复杂性赋予了LSTM处理和记住序列中的长期依赖性的能力。它通过引入了门机制(gate mechanism)来实现这种能力。

在LSTM中,一个单元包含一个Cell。图3中的Ct表示一个LSTM Cell的状态。σ表示Sigmoid函数:

LSTM通过门结构对状态信息进行控制,对需要长期记忆的信息进行保存,并对后续无影响的信息进行舍弃[15]。LSTM中共有遗忘门、输入门和输出门3个门结构,每个Cell通过这些门结构来更新自身的状态。

遗忘门控制上一个时间节点的信息是否要写入:

ft=σ(Wf[ht-1,xt]+bf)

(3)

输入门选择什么样的信息能够写入Cell状态:

it=σ(Wi[ht-1,xt]+bi)

(4)

输出门确定输出什么值,输出的值基于当前的Cell状态:

ot=σ(Wo[ht-1,xt]+bo)

(7)

ht=ot*tanh(Ct)

(8)

图3 LSTM单元结构图

根据采集的空战数据特性,设计了图4中的LSTM网络结构,包含输入层、3层LSTM隐藏层以及输出层,通过该网络结构对空战数据进行训练。

在图4中,输入层输入经过归一化预处理后的红蓝双方战机态势数据,每10个隐藏层对应1个LSTM循环单元,输出层经过全连接层后分为2个输出分别代表红蓝方的特征值,再经过Softmax层输出红蓝方胜率。Softmax的表达式为:

(9)

采用交叉熵损失函数评估网络预测与真实标签的差异,并采用Adam优化方法通过反向传播来更新网络参数。交叉熵损失函数表达式为:

(10)

式中:p为样本真实分布;q为预测分布。

图4 胜率预测网络模型结构图

2.3 基于最大类间方差法的关键节点阈值选择

本文采用阈值法对关键节点进行判定。具体地,计算当前时刻与上一时刻的预测胜率差值的绝对值,并将绝对值大于阈值的时刻认定为影响胜负的关键时间节点。由于阈值的大小会直接影响关键事件和非关键事件的区分度,因此阈值的选取十分重要。这里引入最大类间方差法来辅助进行阈值的选取[16-17],将所有时刻发生的事件被分为关键事件和非关键事件。假设,2类事件胜率差的均值为u0和u1,发生概率为w0和w1,则2类事件的类间方差g为:

g=w0w1(u0-u1)2

(11)

当g为最大值时,这2类事件之间的区分度最大。通过这种方法,根据采集的胜率预测训练数据样本以及相邻时刻预测的胜率差绝对值即可选取得到阈值,并确定关键节点。

3 实验验证及结果分析

3.1 胜率预测模型训练效果分析

在仿真推演系统中,通过模拟红蓝双方空战对抗,采集并处理了2 806局对战态势数据,共获得1 009 157个数据样本。为了评估模型泛化能力,将所有样本按7∶3的比例分为训练集和测试集。模型训练仅使用训练集,每轮训练完成后利用未曾用于训练的测试集来验证模型性能,以评估模型泛化能力。训练过程中准确率和损失值的变化曲线分别见图5和图6。

图5 训练准确率变化趋势图

图6 训练损失值变化趋势图

从图5和图6可以看出,经过20个回合的训练,模型的损失值逐渐降低,准确率平稳升高,最终模型在训练集和测试集上的准确率分别收敛到了94.22%和98.56%。这说明所设计的网络模型具有良好的性能和较强的泛化能力,能够对未训练的空战场景进行胜率预测。

3.2 关键节点阈值选取结果分析

将2 806局态势数据输入上述训练得到的胜率预测模型,统计相邻时刻输出的预测胜率差的绝对值,发现最大的预测胜率差的绝对值为32.0%。为了计算当阈值取何值时类间方差g能取得最大值,从0.1%至32.0%,每间隔0.1%来对阈值进行采样,并计算相应的g值,结果如图7所示。

图7 不同阈值对应的类间方差值

从图7中可见,类间方差g值随阈值的不同而变化;当阈值为9.1%时,类间方差g取得最大值4.887 9。这说明在前后胜率差的绝对值大于9.1%的那个时间点,发生了影响战局的关键事件,因此将这一时刻认定为关键节点。

3.3 总体方案验证与效果分析

为了验证胜率预测模型的实际预测效果以及阈值选取的合理性,在所有样本中随机选取5局数据输入胜率预测模型,记录其胜率变化,并统计胜率变化绝对值大于阈值的情况。由于该5局对战为样本中随机选取,因此这5局对战的想定也各不相同,红蓝双方数量也不同,具体结果如图8所示。

在图8所示5局模拟对战中,由胜率预测模型输出了仿真过程不同时间点的红方胜率变化。在5局对战中,第1、2、5局红方获胜,第3、4局蓝方获胜。5局中最终获胜方在对局终止前的预测胜率均大于90%,且胜率预测曲线展现的战局变化情况与实际情况较为符合。这说明胜率预测模型能够较为真实地反映战局的实际情况。

图8 对局胜率变化图

在5局对战仿真中,共有13处前后时间节点的预测胜率差的绝对值大于9.1%,即认为这13处为关键节点。表1展示了统计的预测胜率变化以及实际发生事件的具体情况,其中Red1、Blue1、Red2与Blue2等分别表示红蓝双方战机的不同战机。

表1 对局关键节点事件统计情况

如表1所示,在每局预测胜率变化绝对值大于阈值9.1%时,确实有影响战局的关键事件发生,且事件影响程度与胜率变化绝对值正向相关。

图9为第1局中第1个关键节点的战场俯视示意图,其中左侧蓝色粗线条表示蓝方飞机飞行轨迹,右侧红色粗线条表示红方飞机飞行轨迹,红色细线条表示红色导弹轨迹。在第92 s时左上方蓝方飞机Blue2被红方2架飞机同时攻击,蓝方飞机也在试图躲避,但从图中的趋势看,蓝方飞机很大概率将被击落。此时的预测胜率9.9%>9.1%,这说明本文采用的最大类间方差法选取的阈值较为合理,能够筛选出关键事件节点。

图9 第1局92 s战场俯视示意图

4 结语

鉴于目前缺少识别空战训练过程中关键事件节点的方法,本文提出了一种基于胜率预测的空战关键节点确定方法。采取LSTM网络来训练胜率预测模型,并引入最大类间方差法来确定关键节点阈值,将相邻时刻胜率预测差的绝对值大于阈值的时刻确认为关键节点,最后进行了大量的仿真实验来验证,结果表明,该方法具有良好的性能和泛化性,可应用于各种空战训练场景,为研究空战训练评估的时效性提供了良好的开端。值得注意的是,本方案仅可根据胜率筛选出关键事件节点,至于节点对应的具体关键事件仍需人工判断,如果要利用智能化手段直接判断关键事件,还有待进一步研究与解决。