基于深度强化学习的航天信息综合应用与决策研究

2019-06-25 09:54陈金勇
无线电工程 2019年7期
关键词:航天决策卫星

王 港,帅 通,陈金勇,高 峰

(中国电子科技集团公司 航天信息应用技术重点实验室,河北 石家庄 050081)

0 引言

随着航天装备的不断发展,全球在轨卫星已突破千颗。航天资源的种类和规模不断扩大,其所应用的领域也不断拓展,包括了通信、导航、遥感的所有领域,正在提供灾害评估预测、国土资源调查、城市管理规划、农业估产减灾、军事侦查保障、导航定位授时、卫星宽带通信等服务[1]。与此同时,由于历史原因,各类航天信息资源仍然是各自建设并独立对外提供服务,其信息资源服务的深度和广度无法满足现阶段用户在航天信息的综合应用需求,这就迫切需要在现有机制体制下,寻找航天信息综合应用的需求筹划和决策方法,为高效率、综合化、深度化应用航天信息提供技术支撑。

现有航天资源筹划与应用方面的研究,主要是为卫星管控机构服务,从而在专业角度优化航天卫星资源。张超为了解决航天资源应用优化的问题,在工程实践方面提出了基于贪婪算法的遥感卫星接收站的调度技术[2]。李军等为解决现有空天资源规划调度系统相对独立、协同困难的问题,分析总结了SWE(Sensor Web Enablement)标准,并在此基础上提出了空天资源对地观测协同任务规划服务模型[3]。陈英武等提出了一种求解多星任务规划问题的演化学习型蚁群算法,从而将人工智能算法应用于卫星资源应用方面[4]。张超等针对现有卫星管控体制,提出了星地联动的运行机制[5]。陈韬亦等在星地联动的基础上更是提出了卫星的自主管控,从而将部分任务决策功能置于卫星上[6]。上述学者和技术人员在航天信息应用与优化方面做出了大量的贡献,但是其研究对象为专业化的卫星管控与接收机构,无法适用于通用用户。

深度强化学习是人工智能领域的一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制和决策。自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习,其发展的前沿方向主要在分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等方面[7]。

针对航天资源种类较多、应用机制复杂难以被普通用户所掌握的难题,提出基于深度强化学习的航天信息综合应用决策方法,将航天应用需求、航天信息资源属性进行建模,以航天应用需求向量作为强化学习模型中的环境变量,以航天信息资源属性向量作为约束条件,通过典型场景的学习和反馈,实现模型的优化,从而具备一定的航天信息综合应用决策能力。

1 航天信息综合应用需求分析

美军的航天信息应用代表了国际最高水平,目前,美军不但实现了空间信息与战场信息系统的高度集成,还实现了与主战武器系统的有效铰链。美军大力发展集无人机、人工平台、天基、海基和陆基系统在内的综合系统,应对情报搜集需求与挑战,建立了军、民、商用遥感卫星应用系统以及天基通信系统,具备最强大的侦察、监视、情报、通信、导航、定位以及气象保障能力。同时美军不惜巨资打造了FBCB2(旅及旅以下作战指挥)系统、“快速战术影像终端”、陆地勇士系统及“未来部队勇士”系统,用以实现了从“传感器到射手”链接应用[8]。

美军利用战术应用终端向作战部队提供了情报、通信、导弹预警、侦察监视、空间导航和气象保障服务,提供运动中实时的指挥控制信息、态势感知信息;为指挥官、小分队和单兵显示敌我双方的位置;能够利用多种卫星通信、战地无线网通信、战术电台等通信方式收发作战命令和后勤数据,进行目标识别等,极大地提高了指挥员对战场的感知能力和指挥效率。但是战术终端造价和重量等因素一直制约着美军终端的继续发展,随着新一代智能手机的出现,美军迅速采用商业手机改造的形式,加载特殊软件,相比普通手机经过了防尘、防震、防弹等改造。通过模块化、总线化设计,实现“全战场可视性”以及供战斗条件下使用的稳定真实界面与数字化战场的一体化,能够提供有关敌方战斗人员、路边炸弹和友军的照片、地图及其他关键任务信息,并且可共享和实时更新。美军战术应用终端如图1所示。

图1 美军战术应用终端

综上所述,美军按照天地一体化的设计原则开展航天武器装备研究的同时,将航天装备与战场信息系统密切结合,战术应用终端呈多种应用功能于一体的发展方向,整体发展趋势如下:

① 由点及面纵向发展。首先表现为战术终端全面进入指挥所、武器系统、士兵各个作战单元,通过作战领域纵向发展,作战装备层次也由指挥机构到单兵层次,能够改善航天信息的流通和处理。

② 重视互联互通的发展。目的在于合理地利用航天信息应用系统和其他信息系统的数据信息,优化合成部队的作战和部队系统的整体效能,能够保证各种武器系统、诸兵种之间信息、力量的相互协调。

③ 重视系统一体化的设计。强调战术终端具有航天信息显示与应用、指挥控制和信息共享的能力,可提供终端的信息数据“全战场可视性”、战斗条件下使用稳定性以及多种功能的一体化。

美军的发展趋势对我国在航天信息综合应用方面具有十分重要的启发。其在航天信息一体化应用、多层次应用以及战术应用均具有借鉴意义。随着航天信息综合应用的深化和军民需求的不断拓展,其用户群体将呈现爆炸式增长。而航天信息应用处理的专业化人才并没有出现太多的增长。这就要求在实现航天信息应用深化和拓展的同时,必须充分考虑航天信息应用的知识基础。在专业人才有限但应用需求众多的情况下,应用人工智能技术结合航天信息综合应用模式,实现一些应用环节的自动化和智能化十分必要。

2 深度强化学习

2.1 强化学习

强化学习的学习过程是Agent与环境进行交互并从环境中取得反馈信息的学习过程。作为一种交互式的学习方法,强化学习的主要特点是试错和延迟回报[9]。Agent与环境的交互过程如图2所示。在每个时间步长,Agent观察环境得到状态st,然后执行动作at,环境根据at生成下一时刻的st+1,rt。这样的过程可用马尔可夫决策过程(Markov Decision Processes,MDP)来进行描述。MDP分为4个部分,也可称为四元组

①S表示状态集;②A表示动作集;③P(s′|s,a)表示状态s下采取动作a之后,转移到s′状态的概率;④R(s,a)表示状态s下采取动作a获得的奖励。

图2 强化学习示意

策略的目标是使未来的累积奖赏最大,因而当前状态(或状态-动作对)的好坏可以通过该状态(状态-动作对)能够带来的未来累积回报的大小来衡量。强化学习引入回报函数来表示某个时刻t的状态下具备的回报值:

由于距离当前状态越远,回报值的不确定性越大,因而一般采用γ作为折扣系数,对未来的回报值乘以一个折扣γ。进而,引入值函数的概念,用值函数来表示一个状态的价值,也就是未来累积回报的期望。定义如下:

动作-状态价值函数就可表示为:

2.2 深度强化学习

经典的强化学习方法往往无法解决状态和动作空间维度很高的问题,一个有效的解决途径就是使用函数近似的方法,即将值函数或者策略用一个函数显性的来进行表示。常用的近似函数有线性函数、核函数、神经网络等。而近年来最成功的方法就是使用深度神经网络作为强化学习的近似函数,即深度强化学习。深度神经网络不仅具有强大的非线性逼近能力,而且实现了端到端的学习,能够直接从原始数据的输入映射到分类或回归结果,而不再需要特征工程引入过多的人为因素。深度学习与强化学习的结合最早可追溯于文献[9]将AutoEncoder应用于强化学习中,解决了路径规划寻优的问题。而深度强化学习真正的开端是DeepMind在2013年NIPS会议上发表的DQN算法[10],其直接从像素图像中学习策略来进行Atari游戏。近年来,深度强化学习的研究成为机器学习的一个重要方向,文献[11]在Nature上发表的深度学习综述一文也将深度强化学习作为深度学习的重要发展方向。

Mnih等人[12-13]将卷积神经网络与传统RL中的Q学习[14-15]算法相结合,提出了深度Q网络(Deep Q-Network,DQN)模型。该模型用于处理基于视觉感知的控制任务,是DRL领域的开创性工作。DQN模型的输入是距离当前时刻最近的4幅预处理后的图像。该输入经过3个卷积层和2个全连接层的非线性变换,最终在输出层产生每个动作的Q值。DQN的模型架构如图3所示。

图3 DQN网络模型结构

3 基于深度强化学习的航天信息综合应用决策

航天系统获取了相关的各类空间数据,各类地面应用系统要对所获取的原始数据进行加工、处理和应用。而在应用系统的开发过程中,如果每一个应用都从底层进行开发,将存在大量的重复工作,开发周期长,系统质量难以保证。通过对航天信息应用系统功能的研究,抽取应用中的公共部分,以应用开发平台的方式为各类航天信息应用系统的开发提供一个通用的航天信息综合应用平台,将是实现各种用途的航天信息应用系统的基础,能极大地提高航天信息应用系统的开发效率,加强航天信息的综合应用。航天信息综合应用系统的体系结构如图4所示。由航天系统中的遥感设备获取的各类航天数据通过传输系统和接收系统,传到各类应用系统的数据接口,航天信息应用平台提供对数据的处理、存储和管理能力,并通过虚拟仿真平台为应用系统的开发提供底层功能,直接支持应用系统功能的开发。

图4 航天信息综合应用系统结构

在考虑将航天信息综合应用的时候,需要将各个航天资源进行个体化属性描述,以本体形式进行组织和描述。本体作为共享概念模型的形式化规范化说明,其技术目的在于使信息都能得到共享和重用。已经在语义网、知识工程、信息系统建模等多个领域得到应用。相关研究表明,本体技术是促进空间信息服务在语义层次上进行知识库构建和知识描述操作的一个有效途径。航天资源本体描述的示例如图5所示。

图5 航天资源本体描述示例

接下来,研究描述向量构建的方法,将上述属性描述改进为标准化,形成可以被强化学习模型所认识的序列输入。一般以固定的格式顺序进行标准化,形成序列。主要工作为对非数值类的属性进行编码描述,形成一个标准描述向量,如图6所示。

航天器类型轨道信息载荷信息分辨率信息所属机构重访周期光谱信息带宽信息Value1Value2Value3Value4Value5Value6Value7Value8

图6 航天资源向量描述示例

如何高效利用多颗卫星的资源完成目标任务,是目前卫星任务规划领域的热点。当前,按照卫星任务规划模式可分为集中式和分布式协同规划方法。虽然集中式任务规划系统可从全局的角度对问题进行求解和优化,但在实际规划过程中存在求解复杂度高、鲁棒性差、可扩展性不足等局限,难以保证遥感需求的质量和时效性。

为了解决上述问题,提出基于深度强化学习的航天信息综合应用决策算法。采用深度强化学习算法求解航天信息综合应用面临建模难、筹划难的问题,模型参数的知识难以完全获取。因此,如何制作深度强化学习算法训练样本并建立模型使其可以为航天信息综合应用决策提供有价值的指导,成为本项目研究的重要内容。

3.1 样本内容

同时,制作样本的后续评价数据,T={t1,t2,…,tM}为对应的观测目标集合,∀ti∈T可表示为ti=〈ui,Ai(k)〉,satk∈SAT,ui表示完成ti获得的效用值,Ai(k)=(Ai,Vst(k),Ai,Mem(k),Ai,Eng(k))表示ti对卫星satk的资源需求向量,由于卫星能力异构,不同卫星对于同一目标ti的资源需求向量不相等。

3.2 样本模型建立

综合应用方案主要由指针神经网络产生,该神经网络在结构上由2个循环神经网络(RNN)构成,分别作为规划方案的编码器和解码器。这2个网络均由长短时记忆核(LSTM Cell)构成。每一个样本内容为一个序列,其包含卫星的各类相关信息。因此,需要使用神经网络进行编码,将信息序列编码为可以供机器掌握的特征序列。进入强化学习训练流程后,进过训练,输出为调整序列,同时此时进行解码工作,获得任务序列情况。

强化学习作为一种无监督学习方法,提供了一种训练上述指针神经网络求解卫星任务规划问题的合理框架。基于卫星任务规划问题的目标函数相对简单,本项目提出一种基于策略的无模型强化学习算法用来优化上节中的指针神经网络的参数。网络的训练算法使用类似于Asynchronous Advantage Actor-critic (A3C)算法,算法流程如下所述:

AlgorithmActor-critic Training

1:procedure TRAIN(training set S,number of training steps T,batch size B)

2:Initialize pointer network paramsθ

3:Initialize critic network paramsθv

4:for t = 1 to T do:

5:si~SAMPLEINPUT(s)fori∈[|1,B|]

6:πi~SAMPLESOLUTION(pθ(.|si))fori∈[|1,B|]

7:bi←bθv(si)

10:θ←ADAM(θ,θ)

11:θv←ADAM(θv,θvLv)

12:end for

13:returnθ

14:end procedure

其中,算法训练的目标函数是使安排的任务数量最大化为:

J(θ|s)=Eπ~pθ(.|s)L(π|s)。

在使用过程中,将用户的航天信息应用需求进行向量化,同样进行编码,输入到决策模型中去,经过决策模型对已知可用卫星集的筹划和安排,从而输出航天信息应用决策结果,主要内容为需求卫星及其使用时间、使用载荷等数据。

4 实验与分析

4.1 仿真与实验

为了选择最优的价值网络模型,本文建立了模拟仿真环境,通过测试结果选取最优的价值网络模型,主要候选模型为DQN,Double DQN(简称DDQN)。实验环境为Windows10操作系统,Python3.6、Tensorflow 1.8 GPU版、Keras2.1.6、Gym0.10.8。设置8类环境评价变量,最大迭代次数为600次,主要考察训练的损失函数值、回报函数值以及测试的回报函数值,回报函数值最大为200。主要测试的价值模型为DQN,Double DQN[16],训练和测试结果如图7~图9所示。

图7 2种价值模型训练过程奖励值曲线图

图8 2种价值模型训练过程损失值曲线图

图9 2种价值模型测试过程曲线图

从训练结果和测试结果可以看出,在使用相同参数的情况下,Double DQN收敛速度更快,在测试中Double DQN获得的满分更多。从而证明了Double DQN在训练学习和测试应用中具有更好的性能。

4.2 结果分析

DQN本质上是Q-learning,只是利用了神经网络表示动作值函数,并利用了经验回放和单独设立目标网络这2个技巧。DQN无法克服Q-learning本身所固有的缺点——过估计[15-17]。一般来说,Q-learning之所以存在过估计的问题,根源在于Q-learning中的最大化操作[18-19]。取最大值操作使得估计的值函数比值函数的真实值大。如果值函数每一点的值都被过估计了相同的幅度,即过估计量是均匀的,那么由于最优策略是贪婪策略,即找到最大的值函数所对应的动作,这时候最优策略是保持不变的。也就是说,在这种情况下,即使值函数被过估计了,也不影响最优的策略。强化学习的目标是找到最优的策略,而不是要得到值函数,所以这时候就算是值函数被过估计了,最终也不影响解决问题。然而,在实际情况中,过估计量并非是均匀的,因此值函数的过估计会影响最终的策略决策,从而导致最终的策略并非最优,而只是次优[20]。为了解决值函数过估计的问题,Double Q-learning将动作的选择和动作的评估分别用不同的值函数来实现。这一设计符合航天信息资源的具体情况,因此,作为今后航天信息决策与优化模型实现的候选网络模型。

5 结束语

本文通过分析航天信息应用在新的时代背景下的新需求,得出航天信息综合应用需要大众化和平民化的结论。在航天专业人才规模没有跟上时代发展的情况下,提出应用人工智能技术中的深度强化学习方法来处理航天信息综合应用决策的问题。通过介绍深度强化学习方法原理、航天信息综合应用决策建模等内容,达到航天信息综合应用智能化决策的目的,从而打通从普通用户需求到航天信息资源专业化应用的途径。同时仿真环境搭建,仿真了卫星资源数据库,在仿真环境下进行了相关模型的训练和测试。实验显示,Double DQN价值函数网络模型具有更好的收敛性,适合作为航天信息优化决策的价值网络。后续将在网络模型设计的基础上构建典型应用场景,并且进行基于实际数据和专家参与的模型训练与测试,在算法的实用化等方面开展研究工作。

猜你喜欢
航天决策卫星
我的航天梦
航天梦,我的梦
miniSAR遥感卫星
为可持续决策提供依据
静止卫星派
逐梦航天日
决策大数据
决策大数据
诸葛亮隆中决策
Puma" suede shoes with a focus on the Product variables