一种优化空天地一体化网络吞吐量算法

杜丹冰

弹箭与制导学报 ›› 2023, Vol. 43 ›› Issue (5) : 109-114.

PDF(1491 KB)
文章检索
PDF(1491 KB)
弹箭与制导学报 ›› 2023, Vol. 43 ›› Issue (5) : 109-114. DOI: 10.15892/j.cnki.djzdxb.2023.05.017

一种优化空天地一体化网络吞吐量算法

作者信息 +

A Throughput Optimization in Space-air-ground Integrated Networks

Author information +
文章历史 +

摘要

为提高空天地一体化网络的吞吐量,提出基于强化学习的链路优化算法(reinforcement learning-based link optimization, RLLO)。RLLO算法以近地轨道卫星为基站提供回程链路。同时,RLLO算法通过管理无人机和微基站的资源以及优化无人机(unmanned aerial vehicles, UAV)的轨迹,提升吞吐量。先建立优化回程链路和接入链路的目标问题,再利用多臂老虎机的强化学习工具求解目标问题。仿真结果表明,相比于同类的基准算法,RLLO算法提高了吞吐量和用户端的可达速率。

Abstract

In order to improve throughput of Space-Air-Ground Integrated Networks, Reinforcement Learning-based Link Optimization (RLLO) algorithm is proposed in this paper. In RLLO algorithm, we consider low Earth orbit satellites as an effective backhaul solution. For access links, we manage the radio resource among UAVs and small cell base stations and optimize the trajectories of unmanned Aerial Vehicles in order to improve the throughput. The objective problem of backhaul and access link is constructed. Then, we utilize the tools of reinforcement, and proposed approach based on the multi-armed bandit algorithm. Simulation results show that the proposed RLLO algorithm improve the throughput and rate of user.

关键词

空天地一体化网络 / 近地轨道卫星 / 强化学习 / 接入链路 / 多臂老虎机

Key words

space-air-ground integrated networks / low earth orbit / reinforcement learning / access link / multi-armed bandit

引用本文

导出引用
杜丹冰. 一种优化空天地一体化网络吞吐量算法[J]. 弹箭与制导学报, 2023, 43(5): 109-114 https://doi.org/10.15892/j.cnki.djzdxb.2023.05.017
DU Danbing. A Throughput Optimization in Space-air-ground Integrated Networks[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2023, 43(5): 109-114 https://doi.org/10.15892/j.cnki.djzdxb.2023.05.017
中图分类号: TN929.5 (移动通信)   

0 引言

为了满足全球全面的三维覆盖和在将来随时随地访问的长期需求,空天地一体化网络已成为当今世界的重要研究方向。在空天地一体化网络[1]中,无人机(unmanned aerial vehicles, UAV)[2]作为空中基站(base stations, BS),为地面用户提供视距(line-of-sight, LoS)通信链路,提高蜂窝网络对地面用户覆盖率和网络吞吐量。
然而,基于UAV-协助的通信系统面对诸多挑战。例如,UAV的移动和位置对通信系统性的影响。此外,由于频谱资源稀缺,如何有效管理UAV的频谱资源也是空天地一体化网络的关键。文献[3]讨论了频谱资源的分配问题,并提出基于连续凸优化技术的UAV轨迹和功率分配策略[4]
除了频谱资源分配问题外,回程链路的连通也是空天地一体化网络必须考虑的问题之一。文献[5]采用宏基站提供回程链路通信,并通过优化UAV的二维轨迹最大化吞吐量。文献[6]讨论了基于卫星-UAV网络的资源分配问题,并采用单近地轨道(low earth orbit, LEO)卫星为UAV提供回程链路。然而,该策略并没有优化UAV的位置。
为此,针对空天地一体化网络,文中提出基于强化学习的链路优化(reinforcement learning-based link optimization, RLLO)算法。RLLO算法通过优化卫星-基站和基站-用户间资源分配,资源管理和UAV的轨迹,提高系统吞吐量。具体而言,先建立目标问题,再利用强化学习求解。仿真结果表明,文中所提出的RLLO算法有效地提升了吞吐量和地面用户端的可达速率。

1 系统模型

1.1 网络拓扑

考虑如图1所示的卫星-UAV-地面间的混合网络的下行链路。以LUSK表示LEO卫星集、UAV集和小型蜂窝基站、地面用户集。且令 alL=(x,y,h)、 abB=(xb,yb,hb)和 akK=(xk,yk,hk)分别表示卫星L、基站bB和地面用户(以下简称用户)的位置矢量,以基站b表示由UAV扮演的空中基站,标符s表示微基站,因此B=SU,且bU,sS
图1 系统模型

Fig.1 System Model

Full size|PPT slide

rb,k表示用户k与基站b间的平面距离(二维距离),以db,k表示用户k与基站b间的三维距离。
以二值变量Kb(t)表示在时刻t的用户k是否与基站bB关联,其中B=SU,时刻t的时长为Ts,且t∈{1,2,…,N},其中N为总时刻数。若Kb(t)=1,则表示它们关联;否则,Kb(t)=0。
此外,时长Ts足够小,致使每个UAV在一个时隙内的位置不变。假定所有通信是在毫米波段完成,并且不考虑卫星对用户接入链路的干扰。

1.2 回程链路

在卫星的回程链路中,卫星均匀分布在环形轨道,并且在y轴移动方向上的高度H固定[7]。卫星在轨道平面内的轨道速度为[8]:
V= G·M(H+R)
(1)
式中:G,M分别为地球的万有引力常数、质量;R表示地球的半径。轨道周期为:
T= 2π(H+RE)V
(2)
假定回程链路的总带宽为wBCK。将wBCK等间隔地划分为L个带宽。每个卫星与每个BS间链路为视距链路(line-of-sight, LoS)[7]。因此,卫星ℓ与基站b间的自由空间的路径衰耗为:
L,b(t)=32.45+20lg fc+20lg(d,b(t))
(3)
式中:dℓ,b(t)为卫星ℓ与基站b间在时刻t的距离。
定义卫星ℓ与基站b的关联矩阵 AtBCK=[ al,bBCK(t)]。矩阵中 AtBCK的每个元素 al,bBCK(t)表示基站b是否接受卫星的服务。若接收,则 al,bBCK=1,表明基站b在时刻接收卫星的服务,即关联;否则, al,bBCK=0,表示不关联。
依据香农公式[6],卫星给基站b提供的速率:
C,b(t)= wBCKLlog2 1+al,bBCK(t)pl·gl,b(t)σ02
(4)
式中: σ02p分别为高斯白噪声功率和卫星的传输功率;g,b(t)为卫星与基站b间在时刻t的信道增益,其表达式为:
g,b(t)= 10-Ll,b10Gl,TGb,G,dl,brbmax0,
(5)
式中:G,,Gb,G分别为卫星的发射天线增益,基站b的接收天线增益; rbmax为基站b离卫星的最大距离[9]:
rbmax= 2rb,o·rb,L+rb,L2
(6)
式中:rb,o为基站b离地球中心的距离;rb,L为基站b离卫星的最短距离。

1.3 接入链路

用户依随机游走移动模型进行移动。在时刻t,用户k∈K在速度范围[Vmin,Vmax]内随机移动。
以Q表示接入链路的可用信道集,wACC表示可用的带宽。将总带宽wACC划分为Q个正交信道。
AtBCK类似,再定义用户与基站间关联的矩阵 AtACC=( ab,kACC(t))B×K。矩阵 AtACC中的元素 ab,kACC(t)表示在时刻t基站b是否为用户k提供服务,即基站b与用户k是否关联。 ab,kACC(t)=1,表明基站b与用户k关联;否则, ab,kACC(t)=0,表明未关联。
依据香农公式,基站b为用户k提供的最大速率可表示为:
Cb,k(t)=min wACCQlog2(1+γb,k(t)),Cl,b(t)
(7)
式中:γb,k(t)为与基站b关联的用户k端的信干扰比,其定义为:
γb,k(t)=ab,kACC(t)pb(t)gb,k(t)b'B/bpb'(t)gb',k(t)ρb(t)+σ02
(8)
式中:pb(t)为基站b的传输功率;gb,k(t)为基站b与用户k的信道增益;b'B/b;ρb(t)为在时刻t基站b的负载[10]:
ρb(t)=kNb(t)ϑkζkCb,k(t)
(9)
式中:ϑk为数据包达到率;ζk为用户k的数据包尺寸的均值。
为了简化表述,令ρb(t)=fb(ρ(t)),且ρ(t)=ρ1(t),…,ρB(t)。因此,将式(9)改写为[11]:
ρ(t)=f(ρ(t))
(10)
式中:f(ρ(t))=(f1(ρ(t)),…,fB(ρ(t)))。
利用标准干扰函数迭代求解式(10)得到[11]:
ρm=min(f(ρm-1),1)
(11)
式中:ρm为第m次迭代后的输出,其中m∈{1,2,…,Mt};Mt为总的迭代次数。
依据文献[12],用户k与基站b间链路呈LoS链路的概率可表示为:
prb,kLoS=j=0J1-exp-12hb(t)-j+12(hb(t)-hk(t))J+12γ-2
(12)
式中:J=rb,k(t)αβ10001,其中为向下取整函数;α为建筑物覆盖的区域与总的区域比例;β为单位区域内平均建筑物数;γ为建筑物高度的分布。α,β,γ的取值取决于具体环境[13]。此外,rb,k(t)表示在时刻t基站b与用户k间的水平距离:
rb,k(t)= (xb(t)-xk(t))2+(yb(t)-yk(t))2
(13)
式中:(xb(t),yb(t))为时刻t的基站b的位置;(xk(t),yk(t))为时刻t的用户k的位置。
因此,时刻t基站b与用户k间信道增益为:
Lb,kz(t)= δbz+ ηbzlg db,k(t)+ χbz
(14)
式中:z∈{LoS,NLoS},为LoS场景和NLoS场景集; δbz ηbz分别为参考路径衰耗和路径衰耗指数; χbz为零均值的随机变量,其方差为 σb,SFz;db,k(t)为基站b与用户k间的三维距离。db,k(t)的式为:
db,k(t)= (rb,k(t))2+(hb(t)-hk(t))2
(15)

2 RLLO算法

2.1 目标问题

在时刻t,定义传输功率矢量p(t)=(p1(t),…,pB(t)),信道矢量q(t)=(q1(t),…,qB(t))和UAV位置矩阵AU(t)=( aB1(t),…, aBU(t))。形成的优化函数为:
maxp(t),q(t),AU(t),AtBCK,AtACCtNlLbBkKb(t)Cb,k(t)s.t.pb(t)Pb,qb(t)Q,bBρb(t)=fb(ρ),bBal,bBCK(t){0,1},bB,lLlLal,bBCK(t)1,bBab,kACC(t){0,1},bB,kKbBab,kACC(t)1,kK
(16)
式中:Pb为基站b的可用传输功率集;条件第1行对基站b的传输功率和信道进行约束;条件第2行对基站负载进行约束,使基站的负载率不高于1;条件第3行、条件第4行对基站关联的卫星数进行约束,使每个基站至少关联到一个且只有一个卫星;条件第5行、条件第6行对用户关联的基站数进行约束,使每个用户至少关联到一个且只有一个基站。
为了能有效地求解式(16)所示的目标问题,将该目标问题分解成两个子问题:1)回程链路的基站与卫星间的关联问题(以下简称第一子问题);2)接入链路中用户与基站的关联,资源管理和UAV轨迹的设计的联合问题。
可表述为:
maxAtBCKtNlLbBCl,b(t)s.t.al,bBCK(t){0,1},bB,lLlLal,bBCK(t)1,bB
(17)
由式(17)可知,每个基站选择离自己具有最强的信号强度的卫星为自己服务。

2.2 基于增强学习的目标问题求解

提升接入链路的吞吐量是设计RLLO算法的主要目的。RLLO算法通过优化基站的传输功率和信道以及UAV的轨迹,最大化接入链路的吞吐量。由于穷尽搜索算法求解联合问题的计算量过大,RLLO算法引用强化学习算法求解。强化学习算法能够通过观察、奖励和动作来学习对输入的正确反馈。
在强化学习算法中,基站扮演玩家,即将基站集B作为玩家集;值得注意的是,基站包含微基站SBS和无人机UAV。UAV作为空中飞行基站,如图2所示。
图2 强化学习框架

Fig.2 Reinforcement learning structure

Full size|PPT slide

由于SBS和UAV的特性不同,它们采取不同的动作。具体而言,对于编号为s的SBS,用as,i表示其动作,由SBS的传输功率和信道两项信息构成,即as,i=(ps,qs),其中i∈{1,2,…,AS}。而AS=Ps×Q,且psPs,qsQ分别表示s的传输功率和信道。
对于编号为u的UAV,令zuZu分别表示其移动方向和移动方向集,即Zu={up,down,left,right,forward,backward,static}。用au,i表示其动作,由传输功率,信道和移动方向三项信息构成,即au,i=(pu,qu,zu),其中i∈{1,2,…,AU},且puPu,quQ,zuZu
此外,利用式(18)计算选择编号为u的UAV作为空中基站b的奖惩函数:
Rb(t)=kKb(t)Cb,k(t)Cmax
(18)
式中:Cmax为归一化因子。

2.3 基于多臂老虎机问题的强化学习

强化学习算法通过不断获取周边环境的反馈来达到学习目的,即强化学习算法根据当前环境进行判断,并选择相应的动作措施,从而迫使环境状态发生改变,环境的改变带来潜在的“奖赏值”。再将奖赏值反馈算法,进而达到学习目的。
一般而言,在多步动作之后,才能观察到强化学习任务的最终奖赏。考虑最简单的情形:最大化单步奖赏。即在当前时刻,在所有能采取的动作集合中,选择能使奖赏最大的动作。多臂老虎机问题(multi-armed bandits problem, MAB)是强化学习任务对应的理论模型。MAB就是如何在有限时间内,获取最大化摇臂机的累计奖赏的理论算法。
在MAB问题中,赌徒对应玩家;手臂对应动作。每位赌徒从手臂动作集中选择一个手臂,然后再观察所选手臂的奖励。为了获取基站最优的动作,采用上限置信区间(upper confidence bound, UCB)算法求解MAB问题。UCB考虑的是每个手臂奖赏的置信区间的上界。
在MAB-UCB中,每位赌徒只推手臂一次。对于每个时刻t>|Ab|,赌徒推手臂形成的 abUCB(t)值为:
abUCB(t)= arg maxab,iAbR¯b,i(t)+c2lntnb,i(t)
(19)
式中:Ab为玩家b的动作集;参数 R¯b,i(t)为在时刻t玩家b推手臂ab,iAb所产生平均奖励;nb,i(t)为截止时刻t时玩家推手臂ab,i的次数;c为使探索和利用间达到平衡的参数。

3 性能分析

3.1 仿真参数

在1 000 m×1 000 m区域内均匀分布用户和基站。系统的仿真参数如表1所示。除最大传输率为24 dBm外,基站的其他相关参数如表2所示。
表1 系统仿真参数

Table 1 System parameter

Parameter Value
Number of satellites 22
Altitude of satellites/km 550
Heigh of SBS/m 15
Height of users/m 1.5
Carrier frequency/GHz 28
Channel bandwidth/MHz 100
wACC/MHz 56
Noise power spectral density/(dBm/Hz) -174
Number of SBSs 6
kb/s 1
Rmax/s 1
Ts/s 1
Toal number ofiterations 5 740
V/(m/s) 0~1.3
h/m 22.5~150
(ϑkk)/(Mbit/s) 1.8
表2 基站的相关参数

Table 2 BS parameter

Parameter SBS UAV
LoS NLoS LoS NLoS
Path loss exponent 2 2.92 2 3
Reference path loss 61.4 72 61.4 61.4
Shadowing
standard deviation
5.8 8.7 5.8 8.7
为了更好地分析RLLO算法的性能,选择两个基准算法进行比较:随机选择(Random)和基于Q学习(Q-Learning)算法。Random算法表示每个基站以等概率随机选择其动作;Q-Learning算法表示基站通过Q-Learning学习选择其传输功率和信道。同时,UAV随机地选择其移动方向。

3.2 微基站的平均吞吐量

首先,分析UAV数对接入链路中的微基站的平均吞吐量的影响,设用户数为300,如图3所示。由图3可知,当UAV数从0增加至2,微基站的平均吞吐量也随之增加。但是当UAV数大于2后,微基站的平均吞吐量就随之下降。原因在于:最初UAV数的增加,UAV扮演空中基站并分担了微基站的负载,致使微基站的平均负载下降。因此,每个微基站的平均吞吐量就随之上升。
图3 基站的平均吞吐量

Fig.3 Average throughput of BS

Full size|PPT slide

但当UAV数增加到一定数量时,UAV分担的负载更多。由于用户数固定,每个微基站的平均负载下降,最终导致吞吐量下降。此外,相比于Random和Q-Learning算法,RLLO算法有效地提升了吞吐量。

3.3 用户的平均速率

分析接入链路中用户的平均速率,设用户数为300,UAV数为1~8,如图4所示。由图4可知,用户的平均速率随UAV数的增加而增加。原因在于:UAV数越多,每个UAV为用户分担的负载越少,分配的带宽越宽,速率就越高。相比于Random算法和Q-Learning算法,提出的RLLO算法有效提升用户的平均速率。这归功于:RLLO算法通过分配带宽、传输功率的调整,最大化了用户的平均速率。
图4 UAVs数对用户的平均速率的影响

Fig.4 Average rate versus the number of UAVs

Full size|PPT slide

图5给出用户数对用户的平均速率的影响,设用户数为50~400,UAV数为4。由图5可知,用户数的增加,导致用户的平均速率下降。原因在于:每个微基站可获取的资源一定,当用户数增加,每个微基站的负载就随之增加。最终,导致用户端的信干比下降。
图5 用户数对用户的平均速率的影响

Fig.5 Average rate versus the number of users

Full size|PPT slide

3.4 链路中断的用户数

下面分析链路发生中断的用户数,设用户数为50~400,UAV数为4。如图6所示。
图6 链路中断的用户数

Fig.6 Average number of outage users versus the number of users

Full size|PPT slide

图6可知,链路中断的用户数随用户数的增加而上升。原因在于:用户数越多,网络资源竞争越激烈,导致更多链路发生中断。相比于Random算法和Q-Learning算法,RLLO算法减少了发生链路中断的用户数。这说明RLLO算法有效分配了网络资源,为用户提供了稳定的数据传输链路。

3.5 算法的运算性能

分析RLLO算法、Q-Learning算法和Random算法的运算性能,利用运行时间评估其运算性能。运行时间越短,算法复杂度越低,运算性能越优。
表3为RLLO算法、Q-Learning算法和Random算法的运行时间。运行时间取独立运行次数为20时的平均值。
表3 运行时间

Table 3 Runtime

Algorithm Runtime/s
RLLO 5.56
Q-Learning 5.42
Random 2.36
表3可知,RLLO算法与Q-Learning算法的运行时间相近,且RLLO算法的运行时间略高于Q-Learning算法。RLLO算法和Q-Learning算法均采用强化学习算法,但由于Q-Learning算法采用随机方式设定UAV移动方向,并没有优化。因此Q-Learning算法的运行时间低于RLLO算法。此外,由于Random算法只以随机方式选择动作,并没有利用算法优化选择动作的过程,复杂度低,运行时间最短。

4 结论

文中通过联合优化回程链路和接入链路的资源,提高了空天地一体化网络的吞吐量。RLLO算法假定LEO卫星提供回程链接,而微基站和UAV为地面用户提供服务。为了使基站能够学习到最优的策略,RLLO算法采用强化学习,并利用基于MAB算法优化UAV的三维轨迹和基站的资源分配。仿真结果表明,相比于Random和Q-Learning算法,RLLO算法提高了网络吞吐量和用户端的速率。

参考文献

[1]
陈晨, 谢珊珊, 张潇潇, 等. 聚合SDN控制的新一代空天地一体化网络架构[J]. 中国电子科学研究院学报, 2015, 10(5): 450-454.
CHEN C, XIE S S, ZHANG X X, et al. A new generation of space sky integrated network architecture with aggregated SDN control[J]. Journal of China Academy of Electronics and Information Technology, 2015, 10(5): 450-454.
[2]
何尔利, 纪澎善, 贾向东, 等. 位置协助的无人机毫米波通信网络自适应信道估计[J]. 计算机工程, 2020, 46(6): 202-207.
HE E L, JI P S, JIA X D, et al. Position-aided adapted channel estimation for mm-wave communication network of UAV[J]. Computer Engineering, 2020, 46(4): 202-207.
[3]
DAI H, ZHANG H, HUA M, et al. How to deploy multiple UAVs for providing communication service in an unknown region[J]. Wireless Communications Letters, IEEE, 2019, 8(4): 1276-1279.
[4]
WU Q, ZENG Y, ZHANG R. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2018, 17(3): 2109-2121.
[5]
FOTOUHI A, DING M, GIORDANO L G, et al. Joint optimization of access and backhaul links for UAVs based on reinforcement learning[C]// IEEE. Proceedings of the 2019 IEEE Globecom Workshops. New York: IEEE, 2019: 2111-2116.
[6]
HU Y, CHEN M Z, SAAD W. Joint access and backhaul resource management in satellite-drone networks: a competitive market approach[J]. IEEE Transactions on Wireless Communications, 2020, 19(6): 3908-3923.
[7]
LEYVA M I, SORET B, POPOVSKI P. Inter-plane inter-satellite connectivity in dense LEO constellations[J]. IEEE Transactions on Wireless Communications, 2021, 6(5): 13-19.
[8]
LEE J H, PARK J, BENNIS M, et al. Integrating LEO satellite and UAV relaying via reinforcement learning for non-terrestrial networks[J]. Networking and Internet Architecture, 2020, 6(9): 23-31.
[9]
OKATI N, RIIHONEN T, KORPI D, et al. Downlink coverage and rate analysis of low earth orbit satellite constellations using stochastic geometry[J]. IEEE Transactions on Communications, 2020, 68(8): 5120-5134
[10]
ARANI A H, MEHBODNIYA A, OMIDI M J, et al. Distributed learning for energy-efficient resource management in self-organizing heterogeneous networks[J]. IEEE Transactions on Vehicular Technology, 2017, 66(10): 9287-9303.
[11]
ARANI A H, OMIDI M J, MEHBODNIYA A, et al. Minimizing base stations' ON/OFF switchings in self-organizing heterogeneous networks: a distributed satisfactory framework[J]. IEEE Access, 2017, 5(6): 26267-26278.
[12]
AZARI M M, GERACI G, GARCIA R A, et al. UAV-to-UAV communications in cellular networks[J]. IEEE Transactions on Wireless Communications, 2020, 19(9): 6130-6144.
[13]
FONTANESI G, ZHU A, AHMADI H. Outage analysis for millimeter-wave fronthaul link of UAV-aided wireless networks[J]. IEEE Access, 2020, 8(7): 111693-111706.

基金

2021年吉林省社会科学基金项目(2021C94)

PDF(1491 KB)

70

Accesses

0

Citation

Detail

段落导航
相关文章

/