无人机协同空天地一体化战场信息采集策略研究

2024-03-20 08:43王易杰焦立博朱文武

电光与控制 2024年3期

王易杰, 陈昕, 焦立博, 朱文武

(北京信息科技大学,北京 100000)

0 引言

随着无人机技术的发展及逐渐成熟,无人机凭借其高机动性、适应性强和操作简单等特点,可应用于军事领域(如侦察、监视和打击等活动[1-3]),能够取代飞行员执行危险或高风险任务。文献[4]通过强化学习算法与环境交互学习寻找问题最优解,凭借高效自学习能力及模型适应能力,可进行智能决策,构建小型无人机防御系统;文献[5]利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MAD DPG)算法,求解辅助无人机群作战决策,以最小的损耗代价实现集群胜利;文献[6]提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,无人机可根据当前空战态势选择合适的机动决策;文献[7]提出陆基防空武器与无人机进行人机协同作战的概念,设计一体化陆-空协同防空作战模式,利用数据链将无人机雷达提供的目指信息共享到陆基防空武器,实现敌情拦截。

战争时代的军事行动离不开对战场信息的采集和利用。随着科技的不断进步,战场信息的采集和处理手段也在不断升级。传统的情报采集手段包括人工侦察、信号侦察和地面观察等,但这些方式存在着人力资源成本高、时间周期长和风险高等问题。随着现代技术的不断发展,雷达、卫星和无人机等高科技手段使得军方能够更加便捷地获取和利用战场信息,同时,也带来了信息量巨大、数据复杂和传输速度要求高等新的挑战。因此,高效、精准地采集和处理战场信息,成为现代战争中一个至关重要的课题。

空天地一体化网络[8-10]可以为战场信息的采集提供高效的支持。其中,各种类型的传感器、监视器和侦察机器人可以采集、传输和处理战场上的各种信息。通过这些信息,指挥员可以了解敌方部队的位置、行动、战力和其他有关情况。此外,空天地一体化网络也可以支持各种类型的通讯和协同作战活动,包括联合作战和多国联合作战等,可提高指挥员的决策效率和战斗力,进一步提升军队的作战能力。

1 无人机群协同战场信息采集网络模型

无人机群协同6G无线通信网络场景如图1所示。图1中,部署U架具有缓存大小为C(单位MiB)的空中军事无人机采集地面I个用户产生的数据上传至S颗低轨卫星,集合表示为={1,2,…,u,…,U},={1,2,…,i,…,I}和={1,2,…,s,…,S}。系统总带宽为W,被分为K个子信道,信道集合表示为={1,2,…,k,…,K}。6G空天地异构网络中的无线通信具有不确定性和并发性,网络拓扑具有多变性。在传感器用户和无人机基站之间使用正交频分多址(Orthogonal Frequency Division Multiple Access,OFDMA)技术,将通信信道划分为多个子信道,每个子信道可以被分配给不同的用户进行数据传输。

图1 无人机群协同6G无线通信网络场景图

用户i、无人机u和低轨卫星s的坐标在三维笛卡尔坐标系下表示为

(1)

用户i与无人机u的欧氏距离表示为

(2)

用户i与无人机u的通信链路为视距链路,信道增益表示为

giu=ρ0/d2(Li,Lu)

(3)

式中,ρ0为单位信道增益。

无人机u与低轨卫星s的欧氏距离表示为

(4)

当用户i通过信道k向无人机上传数据时,与其他使用信道k上传数据的用户产生信道间干扰,用户i和无人机u之间的信噪比(SNR)为

(5)

基于香农(Shannon Hartley)定律,用户i至无人机u的上传速率(单位bit/s)可以表示为

(6)

设无人机群在空中以固定高度飞行,无人机与低轨卫星之间的通信链路为视距链路。无人机集群中的无人机个体位置在低轨卫星看来位置可以近似相同,不同低轨卫星使用的载波频率可能不同,无人机u和低轨卫星s之间的通信质量主要与无人机与低轨卫星通信的载波频率有关。

低轨卫星接收天线接收的功率是接收天线处的功率通量密度(Power Flux Density,PFD)与天线有效孔径面积的乘积,表达式为

(7)

式中:Ae=gLEOλ2/4π,表示天线的有效孔径面积,gLEO为低轨卫星的天线增益;pu为无人机的传输功率;gu为无人机的天线增益。式(7)可进一步转化为

(8)

平方反比损失的倒数为自由空间路径损耗,根据c=λf,电磁波速c为3×108m/s,f为载波频率,自由空间路径损耗(单位dB)表达式为

(9)

基于香农定律,无人机u到低轨卫星s的上传速率表示为

(10)

(11)

式中,Du≤C,C为无人机的最大缓存容量。

无人机u采集到的数据Du上传到低轨卫星s的传输时延和能量消耗表达式分别为

(12)

(13)

无人机群的总能量消耗为

(14)

2 无人机群协同战场信息采集通信资源分配问题

根据6G空天地异构网络模型建立了联合优化问题。优化目标是最大化6G空天地异构网络中用户传输速率、无人机数据采集量和无人机能耗的加权值,联合优化问题表示为P1,即

(15)

3 无人机群协同战场信息采集通信资源分配算法设计

问题P1为混合整数非线性规划(MILP)问题,决策变量间部分耦合,直接求解难度高。无人机群-低轨卫星的通信决策依赖于地面用户到无人机群通信决策,为降低求解的复杂度,对问题P1进行分解,转化为智能信道分配、通信设备匹配、无人机群-低轨卫星匹配和无人机发射功率控制4个子问题。设计基于遗传算法信道资源分配算法和无人机群匹配算法(Channel Allocation and User-UAVs Matching Algorithm based on Genetic Algorithm,CAUUGA)、基于DDPG的无人机群-卫星匹配算法和无人机发射功率控制算法(UAVs-LEO Matching and UAV Transmit Power Control Algorithm,ULMPA)分别求解子问题。

3.1 信道分配和用户-无人机群匹配问题转化与算法设计

信道分配和用户-无人机群匹配问题具有耦合性、动态并发性和不确定性,对问题直接分解,难以得到全局最优解。随着问题规模的增大,直接对耦合性问题求解的复杂度呈指数级增长,将问题P1分解为决策变量为α和β的0-1整数规划问题P1.1,即

(16)

。

0-1整数规划为非凸、不可导且NP难的问题,在一定时间内,通过计算机计算,无法得到最优解。针对问题P1.1,通过基于遗传算法的信道分配和用户-无人机群匹配算法(CAUUGA)有效地解决决策变量耦合性问题。通过设计6G空天地异构网络信道分配和用户-无人机群匹配问题编码方式和适应度函数,对种群个体基因进行选择、交叉和编译操作,迭代遗传算法通过迭代,逐步优化种群的适应度值,输出适应度最优的资源分配方案。

在6G空天地异构网络CAUUGA中,随机生成多个个体作为种群,种群的大小用P表示,个体为一个可行的资源分配方案。染色体是个体的一种表现形式,由一系列的基因组成,每个基因表示信道分配和用户-无人机群匹配情况。通过遗传算法的进化过程,不断优化染色体中的基因,求得最优资源分配方案。

根据P1.1,种群染色体编码设计如图2所示。

图2 种群染色体编码

将染色体上的每一个基因都编码成一个实数,染色体长度为用户数量的2倍,前部分为信道匹配基因,后部分为用户-无人机群匹配基因。其中,αi∈{1,2,…,K},表示地面用户i的信道选择范围,βi∈{1,2,…,U},表示地面用户i与无人机群中无人机u的匹配关系。当αi=0时,表明用户没有与无人机群进行数据传输,即βi=0。

基因型与表现型是相关的,CAUUGA进行决策时,需将染色体基因解码为决策变量,即

(17)

适应度函数是衡量6G空天地异构网络个体染色体质量的函数,在遗传算法的演化过程中,使用适应度函数计算每个个体的适应度值,决定个体在选择、交叉和变异中的概率,实现染色体的进化。

根据问题P1.1,优化目标为最大化问题,设计适应度函数为

FFitness=Rsum+Du+γ

(18)

选择操作是指从当前6G空天地异构网络种群中选择适应度高的个体作为下一代种群的父代,采用轮盘赌的选择方法进行选择,选择概率与其适应度函数值成正比,每个个体的选择概率为其适应度函数值除以所有个体适应度函数值之和,适应度函数值越大的个体被选中的概率越大。

CAUUGA具体步骤如下:

1) 随机初始化种群和个体染色体基因;

2) for 进化代数 = 0 toNEpisodedo;

3) 根据式(18)对种群个体进行评估,计算适应度值;

4) 根据适应度值,采用轮盘赌选择优秀个体作为父代;

5) 对父代优秀个体进行交叉操作,产生新的个体;

6) 对新的个体进行变异操作,引入新的遗传信息,添加到新种群中;

7) end for。

3.2 信道分配和用户-无人机群匹配问题转化与算法设计

通过CAUUGA求得信道分配决策变量α和用户-无人机群匹配决策变量β,问题P1转化为问题决策变量为c和p的整数规划问题P1.2,即

(19)

式中:c为无人机群-卫星匹配决策变量;p为无人机群信号发射功率决策变量。

对于问题P1.2,决策变量c为离散型决策变量,p为连续型决策变量,直接对问题P1.2求解,需要遍历所有解的组合,时间、空间成本高。设计基于深度强化学习的无人机群-卫星匹配和无人机发射功率控制算法,对离散和连续性决策变量的问题求解。在无人机群-卫星匹配算法和无人机发射功率控制场景中,t+1时隙无人机的存储数据量和无线信号传输的能量消耗只与t时隙无人机的状态和动作有关,无人机未来的状态仅取决于当前状态和智能体采取的动作,满足马尔可夫性。将问题P1.2转化为MDP模型,由四元组{S,A,P,R}表示。

在时隙t的开始,智能体观察6G空天地异构网络智能信道分配和通信设备匹配系统的环境信息,构建时隙t的状态特征向量并将其定义为状态空间St,即

St={Bu(t),Eu(t)}

(20)

式中:Bu(t)为t时隙下无人机u的数据量;Eu(t)为t时隙下无人机u的无线信号传输能量消耗值。

智能体与当前时隙t的无人机群状态空间St交互,根据当前策略给出当前时隙t的无人机决策动作,组成动作空间At(见图3),可表示为

图3 当前时隙t无人机动作空间

At={Cu(t),Pu(t)}。

(21)

在6G空地通信网络深度强化学习中,状态转移可以表示为

St+1=P(St,At)

(22)

式中,P(·)表示状态转移函数,用来计算下一个状态St+1。

一般情况下,深度强化学习的目标是最大化系统的长期回报。联合考虑无人机群与低轨卫星的通信过程,设计基于无人机数据上传和能量消耗的奖励函数,表达式为

(23)

图4 无人机群-卫星匹配和发射功率优化算法实现框架

(24)

yi可以表示为

yi=ri+γQ′(si + 1,(ξ′(si + 1|ϑξ′))|ϑQ′)。

(25)

根据复合函数梯度链式法则,更新策略网络参数

▽ϑξJχ(ξ)=Eρχ(▽AiQ(si,ai|ϑQ)▽ϑξQ(si,ai|ϑQ))

(26)

式中:Jχ(ξ)为性能目标函数;ρχ为策略χ的概率分布函数;E(·)表示数学期望。

ULMPA使用参数融合更新的方法目标网络的参数,即

(27)

式中,参数融合因子θ<<1,通过平衡目标网络参数更新速度、保留历史参数,加速学习过程,提高算法稳定性。

4 仿真实验

使用Python 3.7,Geatpy 2.5和TensorFlow 1.14.0搭建6G空天地异构网络智能信道分配和通信设备匹配环境、GAUUGA和ULMPA仿真环境,运行系统为Windows10。使用的硬件信息为CPU intel 酷睿i7-13700kf @3.4 GHz,GPU NVIDIA 3060Ti @1410 MHz,内存大小为32 GiB,根据国内外已有标准和相关研究,设置的仿真参数能够满足无人机协同6G无线通信网络关联匹配系统的仿真条件,实验的仿真参数如表1所示。

表1 GD2A仿真参数设置

针对所提GD2A中基于遗传算法的CAUUGA和基于深度强化学习的ULMPA,首先,通过仿真实验对CAUUGA的交叉率和变异率进行分析,研究不同交叉率和变异率对CAUUGA收敛的影响,其次,将CAUUGA与贪婪算法(G2A)和随机算法(S2A)对比,对CAUUGA在不同用户数下的性能进行验证,最后,将CAUUGA求得的最优决策α和β应用至P1中得到P1.2,对6G空天异构网络环境初始化,验证不同用户下ULMPA的收敛性。

超参数设置影响GD2A的性能和训练效果,不同的超参数选择对算法的性能产生不同的影响,需要对超参数进行调整和分析,找到最优的超参数组合,提高DCTP的性能,仿真结果如图5-图9所示。

图5 交叉率对CAUUGA收敛的影响

图5描述了不同交叉率对CAUUGA算法收敛的影响,采用多点交叉方式,交叉率分别设置为0.1、0.5和0.9。从图5可以看出,当交叉率为0.9时,在种群进化到150～250代时,系统效用曲线收敛。在250代后,曲线发生跳跃,在280代后系统效用曲线达到收敛。交叉率为0.9时,父代基因进行交叉操作的概率高,子代基因的多样性较低。CAUUGA快速收敛到局部最优解,可能会陷入局部最优解。当交叉率为0.5时,系统效用曲线平缓上升,在150代进化后达到收敛,最终收敛值最优。当交叉率为0.1时,系统效用曲线在200代进化后收敛至最优值。

通过分析CAUUGA收敛曲线可以得出,交叉率为0.9时,父代个体的基因交叉较为频繁,子代个体继承父代大部分基因,CAUUGA在搜索空间中陷入局部最优解,算法收敛速度变慢。较低的交叉率会导致父代个体的基因交叉较少,导致子代缺乏多样性,使搜索过程陷入停滞,无法进一步优化。在信道分配与用户-无人机群匹配应用中,为了保证系统效用函数的收敛速度和质量,选择0.5作为CAUUGA的交叉率。

图6描述了不同交叉率对CAUUGA收敛的影响,采用均匀变异方式,变异率分别设置为0.1、0.01和0.001。由图6可以看出,当变异率为0.1时,种群进化至120代后,系统效用曲线暂时收敛,在350代时系统效用曲线发生跳跃后最终收敛。变异率为0.1时,导致CAUUGA收敛速度慢,陷入局部最优解。当变异率为0.01时,系统效用曲线在150代进化后收敛于最优值。当变异率为0.001时,系统效用曲线在种群的整个进化过程中呈逐渐上升趋势,进化至420代后收敛。

图6 变异率对CAUUGA收敛的影响

通过分析CAUUGA收敛曲线可以得出,变异率的设置对算法的性能和收敛速度有影响。变异率设置越高,导致搜索空间变化过快,错过最优解。变异率设置得越低,导致算法陷入局部最优解,无法终止算法。在信道分配与用户-无人机群匹配应用中,为了保证系统效用函数的收敛速度和质量,选择0.01作为CAUUGA的变异率。

通过CAUUGA对决策变量和α的β求解,无人机群辅助的6G空天地异构网络智能信道分配和通信设备匹配问题转化至对无人机群-卫星匹配算法和无人机发射功率控制的求解。不同的用户数量影响了无人机群的初始数据量,随着用户数量增多,无人机收集到的数据随之增多,导致6G空天异构网络环境发生变化。通过分析不同用户数量对ULMPA收敛的影响,保证在用户数量不同时,ULMPA对6G空天异构网络系统具有相应的求解能力。

图7描述了不同用户数下ULMPA的收敛情况,用户数量分别设置为10、15、20、25、30。无人机群中无人机数量为10架,缓存大小为C。CAUUGA的交叉率和变异率分别取0.5、0.01,ULMPA的学习率设置为0.001。用户任务数据量服从正态分布,均值为6 MiB,保证随机性。随着用户数量的增加,ULMPA收敛需要的迭代次数会增多。

图7 用户数对ULMPA收敛的影响

ULMPA起始值和最终收敛值与用户数量有关,用户数量越多,奖励函数曲线起始值和最终收敛值越低,这表明,无人机群需要花费更多的能耗去传输收集到的用户数据。用户数量的增加,会导致系统效用降低。

图8描述了不同用户数下,CAUUGA随机算法(S2A)和贪婪算法(G2A)对无人机数据采集量的影响。用户数量分别设置为10、15、20、25、30,无人机群中无人机数量、缓存大小、CAUUGA的交叉率和变异率设置同图7。用户任务数据量服从正态分布,均值为6 MiB。当用户数量为10时,6G空地网络环境信道数、无人机缓存容量充足。CAUUGA联合考虑了信道分配和用户无人机群选择问题,将用户产生的数据全部上传至无人机群中。随着用户数量的增加,CAUUGA的无人机数据采集量呈上升趋势。随机算法下的无人机数据采集量上升趋势较弱,这表明随机算法无法同时考虑信道分配和无人机群的选择问题,信道拥塞与无人机缓存容量不足的情况发生。贪婪算法下的无人机数据采集量几乎无上升趋势,只考虑当前状态下的最优决策,如信道分配,不会考虑后续决策对最终结果的影响,如无人机选择问题。贪婪算法处于局部最优解,在用户数量增加的情况下无法给出全局最优解。

图8 用户数量对无人机数据采集量的影响

CAUUGA可以适应用户数量增加造成的解空间复杂的情况,不受制于不同变量之间的相互制约和相互作用,具有全局搜索的能力。随着用户数量的成倍增长,CAUUGA与随机算法和贪婪算法的差距增加。在用户数量为30时,与随机算法和贪婪算法相比,CAUUGA下的数据采集量分别提升了约26%和179%。

图9描述了不同用户对系统效用的影响,参数设置同图7。

图9 用户数量对系统效用的影响

从图9可以看出,随着用户数量递增,GD2A下的系统效用呈现缓慢下降的趋势。这是因为,随着用户数量增加,6G空天地异构网络系统中会有信道拥挤、地面用户上传速率变慢、无人机存在数据上传量超出无人机缓存和无人机的信号传输能耗增加等情况发生。在联合优化空天地两阶段资源分配和设备匹配的过程中,GD2A能够保证系统效用最大化。在随机算法中,其随机性质无法对每个决策结果进行保证,导致某些决策结果无法满足无人机协同6G无线通信网络关联匹配系统要求,系统效用值波动不定。在贪婪算法中,系统效用值随着用户数量增加呈现下降的趋势,贪婪算法只考虑当前状态下的最优选择,不考虑长远的收益,陷入局部最优解。

两阶段算法GD2A对于6G空天地异构网络复杂多变的环境具有适应性,保证系统效用。当用户数量为30时,与随机算法和贪婪算法相比,6G空天地异构网络系统效用分别提升了约36%和75%。

5 结束语

本文主要从战场信息采集问题出发,研究了无人机协同6G无线通信网络信道分配和通信设备匹配问题,利用6G空天地网络的智能化的特性,针对空天地异构网络通信情况复杂,决策间具有相关、耦合、非连续和不可导的特性,提出了一种基于遗传算法和深度强化学习的两阶段资源分配算法(GD2A),有效解决信道分配、无人机群匹配、无人机群功率控制和低轨卫星匹配问题。仿真结果表明,6G空天地异构网络部署的场景下,与随机算法和贪婪算法相比,GD2A可有效增强系统的效用。