无人机辅助通信网络中基于强化学习的用户速率优化算法*

2024-04-24 09:20张延年
火力与指挥控制 2024年2期
关键词:用户数链路信道

张延年,吴 昊,张 云

(南京交通职业技术学院电子信息工程学院,南京 211188)

0 引言

无人机(unmanned aerial vehicles,UAV))[1-2]因其高机动、低成本和可提供视距链路增益特点,UAV 可作为空中基站(base stations,BS),为地面用户提供辅助的通信服务[3]。地面基站因固定地面上,难以提供视距链路增益,并且易受自然灾害破坏或者人为摧毁。因此,将UAV 和地面基站混合,形成基于UAV 辅助的蜂窝网络系统,进而满足用户对网络速率的需求。

基于UAV 辅助的通信系统也面对诸多挑战。首先要考虑的是无人机与用户间的匹配问题,即哪架无人机为用户提供通信服务;其次,信道分配问题,即如何为无人机与用户间通信分配对应的信道;最后,无人机采用多大的功率向用户传输信号,即功率设置问题。这些问题直接影响到用户的速率。针对上述问题,研究人员进行了较深入研究,见文献[4-5]。然而,上述工作只考虑了单架无人机场景。在实际应用环境中有多架无人机同时为多用户提供通信服务。

为此,基于UAV 辅助的蜂窝网络,提出MBRO先建立联合无人机与用户间匹配、信道分配以及传输功率的用户速率的优化问题。考虑到直接求解优化问题的全局最优解的复杂性,采用交替优化法,将原优化问题进行分解,形成两个子问题,再分别利用改进后K-means 算法、多臂赌博机算法求解。仿真结果表明,提出的MBRO 算法有效地提升了用户的平均速率,并降低了链路中断概率。

1 系统模型

1.1 网络模型

考虑如图1 所示的无人机辅助场景,一个宏基站覆盖区域内有多个微基站和M 个用户。在覆盖区域上方部署U 架无人机。为了表述简单,用表示用户集;用表示无人机集。区域内的微基站和用户通过泊松过程生成。即它们到达区域的过程服从泊松过程。

图1 网络模型Fig.1 Network model

假定覆盖区域内因自然灾害,如地震、火灾,导致地面上微基站发生故障,无法为用户提供服务。在覆盖区域上方部署无人机作为临时空中基站,进而为地面用户提供通信服务[6]。

1.2 UAV 空地信道模型

由于UAV 部署在空中,其与地面用户之间存在视距链路的可能[7-8]。因此,首先考虑UAV 同地面用户间信道的自由空间损耗。当信号传输至地面时,可能存在障碍物,如障碍物、大型卡车,这些障碍物阻碍信号的传播,形成信号的非视距传输,导致链路的额外损耗。据此,本文考虑UAV 至地面用户的通信链路由视距链路和非视距链路组成[8]。令hi,k表示UAV vi至用户间信道增益:

式中,c 表示光速,fc表示载波频率;di,u表示UAV vi至用户uk间距离;ηNLoS、ηLoS分别表示非视距传输、视距传输时所对应的额外损耗[9]。

回顾到式(1),依据国际电信联盟的定义,PLoS可表述为:

式中,a、b 为常数,它们取决传播环境;θ 表示仰角,且,其中,Hi表示UAVvi的高度,表示UAVvi至用户uk间的水平距离,如图1 所示。

依据香农公式,UAVvi在信道n 上为用户uk提供服务,使得用户uk端获取的速率为:

令Q 表示可用信道集。令WACC表示可用的带宽。将总带宽WACC划分为|Q|个正交信道,每个信道的带宽为WACC/|Q|,其中,|Q|表示可用信道数。

1.3 问题构建

提出MBRO 算法的目标是通过联合优化无人机位置、无人机- 用户的匹配、信道分配和无人机的传输功率,提升用户的速率。用矩阵表示无人机传输功率,其中,N=|Q|;用表示无人机-用户的匹配矩阵;将信道分配矩阵表示为;用表示无人机位置矩阵。因此,所优化问题可表述为:

式中:约束项C1 表示任意一个用户只能由一架无人机服务;约束项C2 表示任意一架无人机至少占用一个信道为用户提供服务。此外,对于任意一架无人机,当无人机已指定,则一个信道只允许被分配至一个用户。为此,设定约束项C3。约束项C4、C5对无人机-用户的匹配矩阵中元素、信道分配矩阵中元素的取值进行限定,只能取0 或1。

2 优化问题的求解

2.1 基于改进的K-means 聚类的无人机部署

K-means 是基于质心的数据聚类算法。最初,K-means 算法[10-11]从样本集随机选择K个样本作为K 个集群的中心,再计算剩余样本离这些中心点的最小距离。并将这些剩余样本归类至离自己最近的集群中。然后,计算每个集群的中心,重复上述过程,不断更新聚类中心位置,直到得到最佳聚类结果[12]。

由于随机选择初始聚类中心,容易陷入局部最优。为此,基于样本数据的密度产生K个初始聚类中心。具体而言,先计算样本数据的密度,再依据密度按从大至小对样子进行排序,将前K 个样本作为初始聚类中心。

本文利用改进的K-means 算法解决无人机-用户的匹配问题。匹配问题涉及到无人机的位置以及无人机为哪个用户提供服务,即和。依据用户位置,利用改进的K-means 算法对用户进行聚类划分,每个聚类的中心位置作为无人机的水平位置。每个无人机服务一个聚类的所有用户。

算法1 给出了求解过程。以用户位置为算法输入,并设置迭代次数。第1 步,计算每个用户的密度,再依据密度值按从大至小排序,选择K 个用户作为初始聚类中心位置。第2 步,进入循环,计算剩余用户至初始聚类中心位置的距离,并将用户归纳至离自己最近的聚类。第3 步,更新聚类中心位置。即计算每个聚类内用户的平均位置,并利用此平均位置作为该聚类的中心位置。第4 步,判断是否达到循环终止的条件。即计算本次中心位置与上次中心位置的差值,若差值小于预定阈值,就终止循环。或者循环次数达到最大迭代次数,也终止循环。最终,输出K个聚类中心位置(,),i=1,2,…,K。

images/BZ_46_1295_1698_2107_1747.pngimages/BZ_46_1291_1763_2103_2539.png

2.2 基于多臂赌博机算法的信道分配和传输功率的求解

2.2.1 多臂赌博机算法概述及在MBRO 算法中的应用

多臂赌博机算法来源于赌博学中的老虎机。在赌徒面临一台持有多个摇臂的老虎机时,他最初并不知道摇动哪个臂能够获得最大的收益。当他经历了有限次的尝试后,赌徒可能掌握了一些摇臂的期望收益分布知识。接下来,赌徒面临了一个选择:是依据现有知识摇动期望收益最高的臂,还是尝试摇动未知的臂?这实质上属利用和探索的困境问题还是探索新方法获取不确认收益(可能获取较大收益,也可能较小收益)?

作为多臂赌博机的经典算法,置信区间上界(upper confidence bound,UCB)算法通过多次尝试,并统计作出所有选择后的平均收益。

MBRO 算法利用多臂赌博机算法求解第二个子问题。第二个子问题涉及到:UAV 以多大功率向用户传输信号以及选择哪个信道,即信道分配和功率设置问题。因此,UAV 扮演多臂赌博机的赌徒。将UAV 的功率设置和信道分配问题看成其动作,即摇动哪个手臂,图2 给出多臂赌博机算法与微基站、UAV 作为赌徒的对应关系。

图2 多臂赌博机与MBRO 算法间对应关系Fig.2 The correspondence between multi-armed bandit and MBRO algorithm

2.2.2 利用多臂赌博机算法求解

令ai表示UAVvi的动作,其由传输功率,信道分配两项信息构成,即。利用式(6)计算选择UAVvi作为辅助基站奖惩函数:

式中:Ni表示UAVvi为用户提供服务的用户集;为归一化因子,其中,表示用户端的数据包到达率;表示用户端的数据包大小。

为了最大化收益无人机选用收益最大化的动作。此处收益是指用户的速率,即最大化用户收益。采用UCB 算法求解。UCB 考虑的是每个手臂奖赏的置信区间的上界。

3 性能分析

3.1 仿真参数

假定所有用户在实验区域内均匀分布。宏基站部署在离实验区1 km 的地方。在实验区域内部署U架无人机和M 个用户。无人机的高度为100 m。假定实验区域部署在城区,无人机空地信道模型的参数取值为(9.61,0.28,1.0,20)。具体的仿真参数如表1 所示。

表1 仿真参数Table1 Simulation parameters

为了更好地分析MBRO 算法的性能,考虑两个基准算法:1)Random+Bandit。Random+Bandit 算法表示无人机以随机方式与用户进行匹配,但仍采用多臂赌博机算法完成信道分配和功率设置,2)K-means+Random。K-means+Random 算法表示以K-means 算法解决无人机与用户间的匹配问题,用随机方式向用户分配信道和无人机的传输功率,且无人机传输功率在2~5 W 区间。

3.2 基于改进K-means 算法的无人机与用户匹配后的分布图

首先,分析利用改进后K-means 算法实现无人机与用户间的匹配结果,如图3 所示。14 个用户分布在内。图中的三角形表示用户。利用改进K-means 算法实现无人机与用户间的匹配,即依据用户的分配,部署无人机。图中黑色圆圈表示无人机。通过改进K-means 算法能够将用户划分为多个簇,然后,再在每个簇内部署无人机,使每个用户到为其提供通信服务的无人机的距离最短。

图3 无人机与用户匹配后的分布图Fig.3 Profile after the matching of UAVs with users

3.3 用户的平均速率

接下来,分析MBRO、Random+Bandit 和K-means+Random 算法的用户平均速率,用户数为20,信道数为15。Random+Bandit 算法采用5 架无人机。需要说明的是:MBRO 和K-means+Random 算法是通过K-means 算法部署无人机,即依据用户部署无人机。因此,无需指定无人机数。

从图4 可知,在信道数给定的条件下,用户平均速率随用户数的增加而下降。原因在于:用户数越多,资源竞争越激励,彼此间干扰越大,这就降低了用户端的速率。此外,相比于Random+Bandit 算法、K-means+Random 算法,MBRO 算法提升了用户的平均速率。MBRO 算法利用改进后K-means 算法部署无人机,优化了无人机与用户间的匹配。同时利用多臂赌博机算法完成信道分配和功率设置,缓解干扰。相比于K-means+Random 算法,在用户数较少时,Random+Bandit 算法在用户平均速率方面具有优势。原因在于:Random+Bandit 算法采用固定的无人机数,在用户数较少时,无人机服务的用户数较少,能够提升用户速率。但是随着用户数的增加,Random+Bandit 算法不再具有优势。

图4 用户数对用户的平均速率的影响Fig.4 The impact of number of users on the average rate of users

接下来分析,可接入信道数对用户的平均速率的影响,如图5 所示。设用户数为16、无人机数为6,可接入信道数从5~25 变化。

图5 可接入信道数对用户的平均速率的影响Fig.5 The impact of the number of accessible channels on the average rate of users

从图5 可知,用户的平均速率随可接入信道数增加而上升。原因在于:当用户数和无人机数固定时,可接入信道数越多意味着可选的传输通道越多,用户间干扰会随之减少。相比于Random+Bandit和K-means+Random 算法,MBRO 算法提升了用户的平均速率。

3.4 链路的中断概率性能

最后,分析用户与无人机通信链路是否发生中断。用链路中断率表示链路质量,链路中断率等于发生中断的链路数与用户总数的比值。链路中断数越多,链路质量越差。无人机数为5,可接入信道数为15,用户数从10~20 变化。

从图6 可知,Random+Bandit 和K-means+Random 算法的中断概率随用户数增加而上升。有两方面原因:1)Random+Bandit 算法未能优化用户与无人机匹配,以随机方式关联用户,当用户数较多时,其不足就凸现,增加了用户中断概率;2)Kmeans+Random 算法未能优化功率和信道分配,当用户数较多时,由于未能优化功率和信道分配,用户间的干扰严重,增加了用户中断概率。相比于Random+Bandit 和K-means+Random 算法,MBRO 算法降低了中断概率,并且MBRO 算法的中断概率随用户数的波动较小,这也说明MBRO 算法能够自适应环境,动态地分配信道和功率。

图6 中断概率Fig.6 Interruption probability

4 结论

本文针对基于无人机辅助通信的蜂窝网络,研究了基于无人机与用户的匹配、无人机传输功率和信道分配的联合优化问题。先建立优化用户和速率的优化问题,再利用改进的K-means 算法和多臂赌博机算法求解。最后,通过仿真数据验证了用户的平均速率性能。从仿真数据可知,通过优化无人机传输功率和信道分配,可有效提升用户的速率。

尽管提出的MBRO 算法提升了用户的速率,但本文只考虑了无人机与用户间通信,未能同时考虑蜂窝基站与用户间通信。在实际环境中,这两类通信可能同时存在,彼此相互干扰。后期,笔者将同时考虑这两类通信,并对算法进行改进,这将是下一步的研究工作。

猜你喜欢
用户数链路信道
家纺“全链路”升级
天空地一体化网络多中继链路自适应调度技术
基于导频的OFDM信道估计技术
基于VBS实现BRAS在线用户数的自动提取
一种改进的基于DFT-MMSE的信道估计方法
基于MED信道选择和虚拟嵌入块的YASS改进算法
基于3G的VPDN技术在高速公路备份链路中的应用
2016年6月电话用户分省情况
2013年12月电话用户分省情况
一种基于GPU的数字信道化处理方法