基于多智能体的有限时间一致性迭代学习控制

2021-02-23 07:48刘圃秀魏文军
兰州交通大学学报 2021年1期
关键词:一致性领导者次数

刘圃秀,魏文军,2

(1. 兰州交通大学 自动化与电气工程学院,兰州 730070;2. 兰州交通大学 光电技术与智能控制教育部重点实验室,兰州 730070)

近年来,多智能体系统因其在解决大型复杂系统问题上表现出的分布性、协调性和自主性受到广泛关注[1-3].对比昂贵且复杂的单个系统,虽然多智能体系统中各智能体结构较为简单,却能通过相互协调解决复杂的现实问题,且具有更好的性能.多智能体系统协同控制问题研究包括编队控制[4-5]、输出调节问题[6-7]和一致性问题等,其中一致性问题是十分重要和经典的问题.多智能体系统的一致性控制问题是指系统中的各个智能体通过自身对环境做出反应并仅与相邻智能体通信,在一致性协议的控制下,位置或速度等状态最终都能够达到一致.但这种一致性在一些现实工业场景,例如周期性运行的多卫星系统或生产线上重复作业的多机械臂系统的协调控制中,无法在给定时间区间内完全跟踪期望轨迹.

目前在周期运动控制中,迭代学习是效果比较好的控制算法.迭代学习控制是模仿人类“在重复中学习”的行为设计出的一种学习算法,因其结构简单、对建模准确性要求低以及鲁棒性较好等特点,在提出后受到了广泛关注[8-9].迭代学习控制最初由日本学者Uchiyama提出[10],后由Arimoto等[11]详尽且正式的描述为迭代学习控制(iterative learning control,ILC)理论.

近年来,迭代学习控制研究取得许多成果[12-15],因其结构简单且控制效果较好而逐步应用于多智能体系统中.文献[16]针对多智能体系统编队问题,应用迭代学习控制算法,在智能体间的拓扑关系存在切换的情况下实现了稳定编队.文献[17]提出了分布式编队迭代学习算法,验证了该算法在系统受随机扰动影响下的有效性,但未考虑收敛所需迭代次数问题.文献[18]针对带有领导者的多智能体系统的一致性问题设计了一种迭代学习型的一致性控制律,保证跟随者对领导者的完全跟踪并给出了控制律的收敛条件.分析以上文献可知目前研究中设计的迭代学习控制律均没有考虑收敛所需迭代次数的问题,系统需要经过多次迭代才能对领导者实现完全跟踪,收敛时间长,不利于工程应用.

考虑到有限时间算法已经成功应用到普通的多智能体系统一致性控制问题上,该算法可加速误差收敛,大大缩短收敛时间[19-20],为减少多智能体系统对领导者实现完全跟踪所需的迭代次数,本文提出一种改进的多智能体有限时间一致性迭代学习控制律,利用有限时间算法处理跟踪误差,提高迭代学习控制律控制下系统的收敛速度,使系统快速收敛,更有利于工程应用.

1 问题描述

本文考虑的多智能体系统由虚拟领导者和N个跟随智能体共同构成.设迭代次数为k,则系统中智能体i在第k次迭代时的动态方程为

(1)

其中:xi,k(t)∈Rm和ui,k(t)∈Rm分别为智能体i的状态向量和控制输入向量,t∈[0,M].

设领导者在任意给定的时间区间t∈[0,M]内的状态为x0(t),则可定义系统中跟随着与领导者之间的误差为

(2)

1.1 图论

1.2 多智能体有限时间一致性算法

有限时间一致性算法在解决多智能体一致性问题上可获得更快的收敛速度.有限时间稳定相关的引理、定理如下.

引理1[14]如果存在一个连续可微的函数V(x)∶Rn→R,使得其满足下列条件:

1)V(x)是正定函数;

为了便于分析,假设系统满足如下条件:

假设1多智能体系统的动态特性是可重复的,从而保证系统存在唯一的理想控制输入u0(t),使系统获得理想状态.

假设2对于所有的k,都有xi,k(0)=x0(0),即系统每次运行初始状态相同.

2 有限时间迭代学习控制律的设计

文献[18]设计的第i个智能体在第k+1次迭代时的控制律为:

(3)

式中,γi是一个正增益.

为了使系统获得更快的收敛速度和更好的暂态性能,在式(3)基础上参考文献[20]多智能体有限时间算法,设计了有限时间一致性误差及控制律,如下所示:

(4)

其中:sig(x)σ=|x|σsgn(x),sgn(·)是符号函数;γi为学习增益;β1,β2为两个待定参数;0<σ<1;ai0为智能体和领导者间的加权.

为了便于收敛性分析,令:

(5)

写出式(2)系统的紧凑形式如下:

(6)

(7)

其中:Γ=diag(γ1,γ2,…,γn);⊗为克罗内克积.

定义2给定向量函数h∶[0,T]→Rn,其无穷范数定义为

引理3[21]对无向图G,若存在函数Ψ∶R2→R,且对∀i,j∈{1,2,…,n},i≠j满足Ψ(xi,xj)=-Ψ(xj,xi),则有一组数列满足

(xj,xi).

引理4[22]用L(A)=(lij)∈Rn×n代表无向图G的Laplacian矩阵,性质如下:

2) 若拓扑图G连通,则L(A)半正定且图的代数连通度为

0=λ1(L)<λ2(L)<…<λN(L).

3) 若无向图G是连通的,则对于bi≥0,∀i∈{1,2,…,n},b≠0,矩阵L(A)+diag(b1,b2,…,bn)正定.

证明令

(8)

联合式(4)、(8)可以得到

(9)

(10)

由引理3可知,

(11)

由引理5可知,式(11)可以表示为

(12)

假设M=L(A)+diag(a10,a20,…,an0),并且由引理4中L(A)的特征值条件可以得到

(13)

将式(13)代入式(12),可以得到

(14)

由引理1可知所设计的控制律满足以下条件:

(15)

定理2给定由式(1)和(4)描述的有限时间迭代学习控制系统,若满足条件

ρ(I-β2(HΓ)⊗Im)=τ<1,

(16)

证明由式(4)得k+1次迭代时的跟踪误差为

(17)

则相邻两次迭代误差的差可表示为

δk+1(t)-δk(t)=xk+1(t)-xk(t)=(Γ⊗Im)ek(t).

(18)

将式(18)代入式(17)可得

ek+1(t)=(I-β2(HΓ)⊗Im)ek(t)-β1((L+S)⊗Im)sig((Γ⊗Im)ek(t))σ.

(19)

‖ek+1(t)‖∞≤‖I-β2(HΓ)⊗Im‖‖ek(t)‖∞+

‖β1((L+S)⊗Im)‖‖sig((Γ⊗Im)ek(t))σ‖<‖I-β2(HΓ)⊗Im‖‖ek(t)‖∞.

(20)

3 仿真验证

在Matlab软件中对系统进行仿真,考虑文献[18]所提的迭代学习多智能体系统由三个跟随者和一个虚拟领导者系统组成,其中第i个智能体的动态方程如下:

智能体间的信息交流用通讯拓扑图表示,其中0表示领导者,如图1所示.

由图论知识可知,S=diag(0,0,0.5),邻接矩阵为

则Laplacian矩阵为

图1 智能体的通信拓扑图Fig.1 Communication topology of agents

图6和图7为系统分别在控制律(3)[18]和改进后的控制律(4)的作用下的最大跟踪误差收敛图.通过对比图6和图7可知,在本文所设计的有限时间一致性迭代学习控制律作用下,系统的跟踪误差收敛至零所需的迭代次数由40次减少为16次.通过对比可知,所需迭代次数减少60%左右,收敛速度大幅提升.

图2 迭代5次时各智能体的状态曲线Fig.2 Curve state of each agent with iteration k=5

图3 迭代5次时各智能体的状态曲线Fig.3 Curve state of each agent with iteration k=5

图4 迭代20次时各智能体的状态曲线Fig.4 Curve state of each agent with iteration k=20

图5 迭代20次时各智能体的状态曲线Fig.5 Curve state of each agent with iteration k=20

图6 控制律式(3)下的最大跟踪误差Fig.6 Maximum track error with control law (3)

图7 控制律式(4)下的最大跟踪误差Fig.7 Maximum track error with control law (4)

4 结论

本文针对多智能体系统迭代学习一致性问题,通过有限时间算法对迭代学习控制律进行改进.对于有重复运动性质的多智能体系统,改进后的有限时间迭代学习控制律与改进前相比,在给定的重复区间内,系统在完全跟踪期望状态的基础上,跟踪误差的收敛速度更快,整个系统的跟随者完全跟踪到期望状态所需的迭代次数明显减少.

猜你喜欢
一致性领导者次数
注重整体设计 凸显数与运算的一致性
商用车CCC认证一致性控制计划应用
注重教、学、评一致性 提高一轮复习效率
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
你是哪一流的领导者
海汇村布行业中的真正领导者
基于事件触发的多智能体输入饱和一致性控制
你是否胜任领导工作?