基于优势行动-评论的雷达自主干扰决策方法

2023-12-07 03:32曹育维
航天电子对抗 2023年5期
关键词:雷达决策状态

梁 猛,王 卫,余 波,陈 飞,曹育维

(中国航天科工集团8511 研究所,江苏 南京 210007)

0 引言

面对日益复杂的电磁环境,电子对抗双方充分感知并分析环境中的各种信息,自适应地调整作战状态和智能地实施干扰决策是未来电子战的主要发展趋势[1]。在现代电子战装备作战中,雷达作为电子对抗的主要载体,是对抗双方夺取“制电磁权”的主要战场之一。随着技术的进步,雷达从传统体制发展到现在的多功能新体制雷达。传统雷达工作模式简单,干扰样式粗放控制,其相对固定的干扰策略面对敌雷达复杂多变的工作模式与众多抗干扰措施,干扰效果有限[2]。而现代新体制雷达干扰信号样式、干扰手段多样,具有优秀的抗工作模式识别、抗干扰能力[3]。特别是在智能化方法的运用下,新体制雷达有了更高的感知能力和快速应变能力,使得敌方雷达识别困难,难以获取己方工作模式的转变情况,从而达到敌方利用基于知识库匹配等技术无法快速实施有效干扰。

认知电子战系统通常由认知侦察、认知干扰、作战评估和动态规则库4 个组成,其中认知干扰决策环节是认知电子战系统的关键之一。国内方面,认知干扰决策有关领域的研究逐渐增多,包括干扰资源分配、干扰样式选择、干扰参数寻优[4-7]等。这些方法通常建立在充分或部分先验知识的基础之上,需构建雷达干扰与抗干扰对策矩阵来指导干扰方进行干扰决策,以期在对抗过程中获得最高的干扰得益。

随着深度学习、强化学习理论的突破,机器学习得益于深度学习的高维抽象学习与强化学习的智能学习决策特点,算法受到认知电子战技术研究者的青睐,无先验信息条件下的干扰决策问题也有了新的解决方案[8]。本文在分析强化学习与认知干扰决策基本原理的基础上,将其应用在非合作环境下对敌方雷达干扰决策中,构建了雷达智能干扰决策模型,提出了基于优势行动-评论的雷达自主干扰决策方法,可支撑电子战背景下雷达智能干扰决策,提高干扰决策效率和准确率。

1 基本原理

1.1 认知干扰决策原理

认知电子战是在传统电子战的基础上,结合OODA环(感知、识别、决策、动作)的闭环学习过程所提出的新型智能化作战理论。认知电子战系统通常具有认知侦察、认知干扰、智能评估以及干扰知识库[1]等能力。其中认知干扰决策功能是认知作战的关键环节,负责根据认知侦察的结果,结合干扰知识库实施自主干扰决策。

强化学习智能体通过与环境交互来获得序贯问题的最优解[9]。本文是在雷达侦察信息的基础上研究智能干扰决策方法,通过对战场环境态势的分析判断,然后分配干扰任务、选择干扰目标,并根据雷达的工作状态实施合适的干扰策略。该过程映射到认知雷达干扰系统中,需要通过观察敌方雷达的工作状态,经过干扰激励和行为学习过程,建立目标雷达的工作状态与已有干扰样式之间的最佳映射关系,从而针对灵活变化的雷达状态实现干扰的快速响应,最终达到最优的干扰效果。而深度强化学习具有强大的环境感知能力和在与环境的交互中学习决策的能力,这与智能干扰决策的OODA 过程非常契合。

1.2 面向干扰决策的深度强化学习算法分析与选择

雷达干扰决策过程是一个个OODA 环,本质上是一个序贯决策过程,对于这类问题的求解,强化学习算法成为研究的热点,其中基于策略梯度的强化学习算法直接搜索最佳策略,如REINFORCE 算法[10]利用蒙特卡洛方法估计梯度策略,具有较好的稳定性,但样本的利用效率较低,容易陷入局部最优的困境。基于价值函数的强化学习算法通过获取最优价值函数来隐式地构建最优策略,如张柏开[8]利用Q-Learning算法实现多功能雷达干扰任务自主决策与策略寻优,但该策略主要适用于少数雷达任务。为解决决策效率随可执行任务增多而明显下降的问题,张柏开[11]利用深度Q 学习(DQN)算法[12]将应用范围拓展到高维度和连续空间,但算法存在训练时间长、效率低的缺点,无法很好地满足对抗的实时性。

行动-评论(AC)算法结合上述2 种方法的优点,分别由动作选择网络和动作评价网络同时学习策略和价值函数[13],结构如图1 所示。为解决AC 算法容易过拟合和收敛性差的问题,发展出了A2C 算法,该算法继承了DQN 的目标网络,采用异步策略的Critic估计策略梯度,使训练更加稳定简单[14]。因此,本文选用A2C 算法应用于雷达多任务自主干扰决策。算法中Actor 网络学习策略,根据当前策略θ和状态s选择动作作用于环境;Critic 网络评价Actor 网络的动作,并使用TD 算法学习Actor 网络当前策略下的状态值函数。通过TD 误差用于反馈并更新Actor 网络的策略参数。算法实现了动作价值评估和策略更新过程的相对独立,Actor 可以对当前环境进行充分探索并进行策略更新,Critic 只需要负责评价策略的好坏,从而降低训练样本的相关性, 提升了采样效率和训练速度。策略梯度更新的目的是学习一个使得期望累计奖励值最大化的策略。A2C 算法的Critic 网络和Actor 网络更新方式如下。

图1 Actor-Critic 算法架构

其中TD 误差采用均方误差损失函数来计算,则Critic 网络的损失函数为:

式中,Gt=Rt+1+γRt+2+…+γn-1Rt+n+γt+nV(st+n)为累积奖励,Gt-V(st)为优势函数A。则Actor 的优化目标函数可以由式(2)给出。

式中,π*为最优策略,该公式的含义为当TD 大于0 时增强该动作的选择概率,反之亦然,所以目标为最小化损失函数-La。

2 基于优势行动-评论的雷达自主干扰决策方法

2.1 雷达自主干扰决策模型

如图2 所示,基于优势行动-评论的雷达自主干扰决策模型可用四元组抽象表示,即S,A,P,R,其中,S表示敌方雷达的工作状态空间,假设雷达有N种工作状态,则S={s1,s2,…,sN},状态可以是雷达的工作模式,如搜索、跟踪等;A表示干扰智能体的可采取动作空间,动作空间是可执行的干扰样式等,假设智能 体 可 采 取 的 干 扰 样 式 有M种 ,则A={a1,a2,…,aM};P为状态转移概率,即干扰智能体在一个状态下采取一个动作a后达到下一个状态的概率,记为P(s′|s,a);R为奖励函数,指干扰智能体在一个状态完成一个动作后的奖励,记为即时回报r(s,a),奖励是干扰方的干扰收益。该模型的核心问题是为决策者找到一个最优的策略:函数π(s)表示当前状态下的动作。目标是最大化该策略的累积奖励函数,即π*(s)=arg maxa∈AQ*(s,a),其中,π*(s)为最优策略,Q*(s,a)为当前状态下选择动作的最优状态-动作值函数。

图2 基于A2C 算法的雷达干扰决策模型

干扰知识库中预存储雷达的工作状态参数、干扰样式及其对应的干扰效果等知识,干扰知识库一方面为干扰决策提供先验知识,另一方面也不断在新的决策过程中修正知识库中已有经验和更新知识。理想情况下,假设先验经验充足且完善,雷达自主干扰决策仅需要从干扰知识库中获取知识即可。

2.2 基于优势行动-评论的雷达干扰决策过程

文中雷达是非合作式目标,干扰方不能直接获得雷达工作的各项参数,只能通过侦查手段对雷达的工作状态和行为特征进行辨识,实现雷达威胁信号的感知。假设雷达的工作状态(本文以工作模式为状态)有N种,状态集合表示为S={s1,s2,…,sN};干扰智能体可采取的干扰样式动作假设有M种,动作集合可表示为A={a1,a2,…,aM};在当前时刻t,工作状态为st,干扰方会根据侦查到的敌方雷达信号信息,识别出雷达的工作状态。首先,对于该状态从干扰知识库横向比较各干扰样式参数得到与雷达干扰效果相关的参数,作为选择下一步干扰动作的依据。同时,保留一定的探索新状态的行为概率。当Actor 网络根据知识及其当前策略选择干扰动作后作用于敌方雷达,Critic网络根据反馈信息对选择的动作进行评价,指导actor网络的更新。此时,完成一次“观察-学习-反馈-再观察”的训练,并且A2C 学习模型获得一次经验样本,即st,at,rt,Rt,st+1,其中rt是一次动作的即时奖励,Rt是执行该动作后的累积奖励期望。

此外,经验样本是存储用于训练当前评价网络的输入样本,使用经验样本融合了模仿学习和经验回放的思路,一方面,先验知识作为经验加速训练网络的效率,另一方面产生新的样本可以存入并更新到知识库中。在算法训练阶段可从经验知识库随机抽样样本供策略网络学习,这有助于减小学习样本之间的相关性,提高样本的利用效率。仿真实验证明,先验知识的加入能够有效提升算法的学习效率。

本文假设雷达通过工作模式的转变体现抗干扰,且雷达工作模式的转变是由于干扰引起的,因此干扰方的干扰收益可以通过雷达工作模式的转移评估得到。假设雷达的工作模式转变服从以马尔科夫决策过程,雷达有N种工作模式,记为S={s1,s2,…,sN}。以pij表示雷达从第i种工作模式转移到第j种工作模式的概率。干扰方通过侦查设备统计一段时间的雷达工作模式,然后根据统计的方式计算工作模式的转移概率,如:

进而可得到总的工作模式转移概率矩阵,如:

假设干扰方可以实施的干扰样式有M种,记为J={j1,j2,…,jM},针对不同的干扰样式,雷达工作模式转移的概率不同,若将雷达受到第k种干扰时,雷达的工作状态由i转变到j的概率记为,则可以得到此时状态的转移概率为:

在实施干扰后,可能导致雷达的工作状态发生变化,干扰方则根据干扰效果进行评估得到工作模式的转移奖励。不同的干扰样式对雷达不同的工作状态影响也不一样,以各工作体制雷达为例,压制干扰在雷达搜索模式效果好,在跟踪模式时,欺骗干扰通常比噪声干扰的效果更好。

通过上述分析,有效的干扰决策使得干扰更具有主动性和针对性,大幅提升干扰效能。为了计算雷达工作状态转换所反馈的干扰效果,借鉴文献[11]中对不同工作模式进行威胁等级划分的方法,定义雷达工作模式转换的3 种情况:高威胁模式转换到低威胁模式、低威胁模式转换到高威胁模式以及威胁等级不变。那么受到第k干扰后,雷达从工作模式i转移到模式j的奖励函数设为有效的干扰动作会使得雷达的工作模式转变且威胁等级下降。因此,在算法学习的过程中,干扰智能体的目的是使得雷达的威胁程度在最少的时间内达到最低。

雷达自主干扰决策流程主要分为5 个步骤,如图3所示。

图3 A2C 干扰决策方法流程图

1) 初始化算法网络参数包括评价网络参数w,策略网络参数θ;初始化学习率α,折扣因子γ,动作探索贪婪策略因子ε;初始化干扰知识库。

2) 设置策略收敛条件,最大训练回合数,每回合最大训练迭代次数。

3) 根据输入的雷达干扰任务,干扰智能体通过侦查方分析环境得到雷达工作状态st,Actor 网络依据策略π 或分析经验知识选择动作at,基于该动作得到新的状态st+1和奖励rt,Critic 网络输入当前状态与动作,输出动作价值函数Vt;并保存和更新经验知识st,at,rt,Rt,st+1到知识库中。

4) 计算优势函数A,更新Critic 网络,更新Actor网络。

5) 达到单回合最大迭代次数结束该回合,或达到最大训练回合数结束训练,或算法达到收敛状态结束训练。

3 仿真实验分析

为验证本文提出算法的可行性和有效性,本文以某多功能相阵控雷达为例,该雷达在工作过程中,可以自主完成搜索、跟踪、识别和制导等任务。围绕雷达工作的全过程,假设实验中雷达工作模式有5 种,即关机、搜索、跟踪(单目标跟踪、多目标跟踪)、综合(边搜索边跟踪)、制导,即{s0,s1,s2,s3,s4,s5,s6}。其中威胁等级依次上升,分别为0,1,2,3,4,5,6。动作为无干扰、压制干扰(噪声调制、射频噪声干扰、梳状谱干扰)、欺骗干扰(假目标干扰、距速拖引干扰、灵巧噪声干扰)7 种,记为{a0,a1,a2,a3,a4,a5,a6}。

DQN 算法是经典的深度强化学习算法,可解决未知对抗环境下对多功能雷达的干扰最优决策问题[11]。因此仿真实验分别采用DQN 算法和A2C 算法进行对比测试,其中设置折扣因子γ=0.9,学习率为α=0.01,动作的初始探索率为ε=0.9,随着训练次数的增加,探索因子逐渐变小。

3.1 算法性能比较

实验1 中,DQN 算法和A2C 算法的训练回合数为800,记录每回合训练的平均动作值和平均损失误差,结果如图4 和图5 所示。图中显示的是2 种算法的网络模型策略随着训练次数增加的关系,可以看出随着训练次数的增加,DQN 算法和A2C 算法的平均动作值逐渐增加,且平均误差逐渐减小,且相比于DQN 算法,A2C 算法收敛的速度更快,学习效率更高。当训练回合数在0~200 之间,A2C 算法的平均动作价值迅速增加,损失函数减少但波动比较明显,表明智能体在探索动作的过程中有明显的学习过程。200 回合以后,损失函数稳定减小,表明A2C 智能体策略达到稳定的收敛状态。而DQN 算法则在400 回合以后,智能体策略达到相对稳定的收敛状态。

图4 每回合平均动作值

图5 每回合损失误差

3.2 先验知识对算法的影响

为验证先验知识对算法模型的学习存在的影响关系,实验2 中分别设置100、200、400 条先验经验来预训练智能体模型,得到的算法训练结果如图6 所示。可以看出,先验知识对智能体的训练和学习存在正向的促进关系,且随着先验知识的增多,智能体模型的学习效率更高,收敛速度更快。这表明,在特定的知识领域,专家知识对强化学习算法模型的学习具有巨大的辅助支撑作用。

图6 先验知识对算法学习效率的影响

4 结束语

智能干扰决策算法的关键是在相应的状态下提供有效的干扰策略,本质上等效为一个序贯决策问题。本文在雷达干扰原理及深度强化学习算法分析的基础上,提出了基于优势行动-评论的自主干扰决策算法来解决不同雷达状态下的自主干扰决策问题。仿真结果表明,在智能体通过大量的干扰策略动作与雷达环境状态进行交互后,其能够快速学习到最优的干扰策略,且在智能干扰算法的学习中,先验知识能够加快算法的学习效率,可为认知干扰决策的研究提供一定的理论支撑和指导意义。但是,干扰策略的决策还需进一步考虑干扰参数如干信比、占空比、假目标数量等参数的最佳选择与适配,后续研究可根据典型的干扰样式及其干扰参数的分析,结合具体的机器学习算法来实现更智能和深入的干扰决策应用。

猜你喜欢
雷达决策状态
有雷达
为可持续决策提供依据
状态联想
决策为什么失误了
雷达
生命的另一种状态
热图
坚持是成功前的状态
基于空时二维随机辐射场的弹载雷达前视成像
现代“千里眼”——雷达