基于状态可行域约束的单输入极值搜索系统自适应控制∗

2018-01-04 01:33王佩飞李海燕

舰船电子工程 2017年12期

王佩飞李海燕

1 引言

控制系统中，系统的参考输出量和参考输入量之间一般存在某种关系，这种关系我们可以称之为参考轨迹。显然，在参考输入的作用下，控制系统的输出轨迹中存在一个全局最优极值点［1～2］。而在实际控制系统中，因为我们并不能够准确知晓控制系统的具体结构以及每个参数都存在不准确性，这就让我们很难精确地了解系统参考轨迹的形式，这也给我们对未知参考轨迹进行寻优的过程带来了很大的难度［3～4］。进入 20世纪后，为了能够找到未知参考轨迹的最优值，人们孜孜不倦地探索研究，提出了如粒子群算法［5～6］、模拟退火算法［8］等多种最优化方法，这些方法都能够有效地实现极值搜索功能，但这些都是从数值计算的角度来对参考轨迹进行寻优的，而且还需要知道或者至少知道部分系统参考轨迹［9］。进入21世纪后，针对不等式约束问题的研究逐渐增多，文献［11］利用障碍罚函数构造新的目标函数使状态避开不可行域，并利用基于激励信号的极值搜索方法进行仿真研究。文献［12］针对严格反馈系统的输出约束问题，在反演控制器设计过程中引入重构障碍型Lyapunov函数进行虚拟控制量设计，再通过滑模控制方法确保系统稳定。文献［13］针对严格反馈系统的状态约束问题，利用障碍罚函数处理约束情况，利用自适应反演控制器确保系统稳定。截止目前，针对极值搜索系统的状态可行域约束的研究仍然较少，需进一步深入研究。

2 问题描述

考虑如下形式的单输入极值搜索系统：其中，x=[x1，x2，…xn]T∈Rn为系统状态向量，u∈R为系统输入量，y∈R为系统输出量；y=J(x1)为目标函数；xˉi=[x1，x2，…，xi]T∈Ri为由系统状态 x1到系统状态xi构成的状态向量，状态量xi是可测的；函数 fi(⋅)，gi(⋅)，ϕi(⋅)，(i ∈ [1 ， 2，…，n] )是连续有界的光滑函数。

控制目标如下：设计自适应控制输入u，使得系统（1）中的目标函数 y=J(x1)能够搜索到其对应的全局极值处，且保证闭环系统中的所有信号全局有界。

我们先做如下假设：

假设1：存在常数 fi0＞0，使得 | fi(⋅)|＞fi0成立，(i∈[1 ， 2，…，n] )。

通过假设1的限制，可知 fi(⋅)始终是严格正或是严格负的，并且 fi(⋅)的绝对值始终为正，即系统（1）是状态可控的。不失一般性地，本文设定fi(⋅)＞0。

假设2：当 x1=x1*时目标函数存在唯一极值点y=J*(x*)，目标函数满足

3 基于状态可行域约束极值参考轨迹设计

针对如式（1）所示的极值搜索系统，是在x1∈(- ∞，+∞ )的范围内搜索目标函数的极值，但在工程应用中常常需要在S(x1)≤0所对应的某个区间范围内搜索目标函数的全局极值。因此针对状态量x1的可行域进行约束，我们构造新的极值搜索系统

其中，各个变量和所有参数与如式（1）所示系统一致，且满足假设1和假设2。本文的状态量x1可行域约束是针对x1的稳定状态而言，此时使目标函数最终能够搜索到状态量x1满足可行域约束S()x1≤0时所对应区间内的全局极值。

我们假设设计的控制器可以实现状态量对极值参考轨迹的有效跟踪，则对状态量的可行域约束即是对极值参考轨迹的约束，故考虑对极值参考轨迹 x1，d满足约束条件 S( )x1，d≤0 的情况进行处理。设存在可行域约束时的状态量x1的极值参考轨迹为x↔

1，d，引入经典对数型罚函数对 x↔1，d满足≤0进行处理。

当目标函数含唯一极大值时采用的对数型罚函数为

当目标函数含唯一极小值时采用的对数型罚函数为

通过引入如式（4）和式（5）所示的罚函数，构造存在可行域约束时新的目标函数为

通过新目标函数的构造，将状态约束S(x1)≤0时搜索目标函数Jθ)最值的问题变为搜索新目标函数最值的问题。因此，我们现在只需针对入式（6）设计极值参考轨迹即可。考虑因满足S(↔≤0而可能引起的可行域包含若干无交集区间的问题，现做补充假设：↔

1，d考虑到引入的对数型罚函数（4）和（5）可知需满足 S()≠0，同时考虑到极值参考轨迹设计需对罚函数进行求微分处理，故针对可行域约束函数做补充假设：

假设4：约束函数S(x1)在满足S(x1(0 ) )＜0的定义域内是有界连续光滑函数。

控制目标为：使得系统（3）搜索到如式（6）所示的新目标函数的最大值或最小值的较小有界邻域内，且闭环系统中的所有信号有界。

不失一般性的，以目标函数含唯一极大值情况为例，构造目标函数（6）与状态量x1和极值参考轨迹x↔ 的Lyapunov函数

由式（8）可得状态量x1的参考轨迹应满足

其中，kd∈R+为设计常数。

将式（9）代入式（8）可得

由式（7）可得VJS≥0，由式（10）可得当极值参考轨迹 x↔ 如式（9）所示时，≤0 。当状态量 x1，dJS1沿着极值参考轨迹x↔ 向 lim =0 的方向趋近1，dt→+∞JS时，最终可到达对应的最大值点x1*处，此时新目标函数稳定在对应区间最值的较小有界邻域内。由假设4可知，极值参考轨迹（9）是可行的，且极值参考轨迹及其高阶导数t)，(i ∈ [1 ， 2，…，n]) 是有界光滑的。

下面分类讨论一下当状态量x1存在可行域约束S(x1)≤0时的极值搜索问题。不失一般性的，我们假设目标函数J(x)存在唯一的极大值J*(x*)，此时对应的状态满足x1*∈(a3，+∞ )，假设状态量 x1存在的可行域约束范围为x1∈[a1，a2] ∪ [a3， +∞ )，其中a1＜a2＜a3。采用本文方法，状态量x1的初始值不受可行域约束的限制，即x1(0)∈(- ∞，+∞ )，而极值参考轨迹的初始值受可行域约束的限制，需满足(0)∈(a ，a)∪ (a ，+∞ )。下面，以此为例123讨论目标函数搜索到最优值的过程：

情况二、当 (0)∈(a3，+∞ ) 时，x1将沿着极值参考轨迹↔收敛至处，此时目标函数达到可行域约束范围(a3，+∞ ) 内唯一极大值)，即新目标函数稳定在对应区间内的最大值处。

以此类推，状态量x1存在可行域约束S(x1)＜0、S(x1)≥0、S(x1)＞0时可以根据以上的讨论情况进行分析。同时，需要特别强调的是，本文涉及到的状态量x1的可行域可以是单个连续的区间，也可以是若干个没有交集的连续区间的并集。状态量x1满足的可行域约束的实质，是求取(0)所在的可行域约束范围内的某个区间的对应目标函数的最大值或最小值，而状态量x1初始值x1(0)可以是全局的，但最终将在自适应控制器作用下收敛到状态量x1满足S(x1)≤0的可行域的某个区间中可使目标函数取得区间内最值所对应的状态量。本文引入了经典对数罚函数，故目标函数可能达到真实的最值的极小邻域内，这取决于控制参数和罚因子δ等因素的影响。

4 仿真验证

现选取幅值和频率都为1的正弦信号作为激励信号进行仿真。采用图1中的算法结构，选取目标函数为

可行域约束为

目标函数h()z轨迹如图2所示。由图2可知，h()

z在z=-5处存在局部极大值91.7，在z=-2处存在极小值-25.3，在z=3处存在全局极大值433。

引入的经典对数型罚函数为

构造新的目标函数为

状态量z的可行区间为(- ∞，-4 ]∪[0 ，+∞ ) ，当z↔(0 )满足 z↔(0)∈(- ∞，-4)时采用本文设计方dd法可使z最终稳定在z=-5处，此时目标函数无限趋近于状态在区间(- ∞，-4)内对应的最大值h*(z*)=91.7的较小有界邻域内；当 z↔d(0)满足z↔(0)∈(0 ，+∞ )时采用本文设计方法可使z最终稳d定在z=3处，此时目标函数取得状态在区间内对应的最大值h*(z*)=433。

设计极值参考轨迹z↔为(0 ，+∞)d

选取 δ=0.01，kd=1，k=0.1，r=12，ωh=1，ωl=0.1，对系统进行仿真，仿真结果如图3～图6所示： ↔

当初始值 zd(0)=-5.2时，可知↔(0)∈(- ∞，-4 )，仿真结果如图3，可得z将沿着极值参考轨迹z↔d收敛至tl→im+∞z=z*=-5处的较小邻域内，此时目标函数达到可行域约束范围(- ∞，-4)内唯一极大值91.7，即新型目标函数稳定在对应区间内的最大值处。

当初始值 z↔(0)=2 时，可知 z↔(0)∈(0 ，+∞ )，dd仿真结果如图5，可见z将沿着极值参考轨迹zd收敛至tl→im+∞z=z*=3 处，此时目标函数达到可行域约束范围(0 ，+∞ )内唯一极大值433，即新型目标函数稳定在对应区间内的最大值处。

由图4和图6可知：目标函数分别收敛至局部最大值h*(z)=91.7和h*(z)=433处；由图3和图5可知：状态量z能够有效跟踪极值参考轨迹z↔最d终收敛至z*=-5处和z*=3的较小有界邻域内。通过仿真分析可知：本文设计的存在状态可行域约束下的极值参考轨迹和自适应控制方法可以实现控制目标，并能取得较好效果。

5 结语

针对单输入极值搜索系统的控制问题，在状态量存在可行域约束的情况设计极值参考轨迹，选取适当的Lyapunov函数进行极值参考轨迹设计，并结合幅值自适应控制，使系统搜索到目标函数的极值处且闭环系统稳定。仿真实验结果证明了该方法的有效性。

［1］Krstic M，Wang H H.Stability of Extremum Seeking Feedback for General Nonlinear DynamicSystems［J］.Automatica，2000，36（4）：595-601.

［2］Blackman B F.Extremum-seeking Regulators［C］//An Exposition of Adaptive Control.New York，USA：IEEE，1962：36-50.

［3］Adetola V，Guay M.Parameter Convergence in Adaptive Extremum-Seeking Control［J］.Automatica，2007，43（1）：105-110.

［4］左斌，胡云安，施建洪.极值搜索算法的研究与进展［J］.海军航空工程学院学报，2006，21（6）：611-617.

［5］高立群，李若平，邹德旋.全局粒子群优化算法［J］.东北大学学报（自然科学版），2011，32（11）：1538-1541.

［6］雷翻翻，高岳林.约束优化问题的改进粒子群优化算法［J］.兰州理工大学学报，2011，37（4）：84-89.

［7］刘庆波，余跃庆.基于遗传算法的欠驱动机器人模糊控制器设计［J］.系统仿真学报，2008，20（8）：2097-2100.

［8］梁毓明，徐立鸿.基于改进模拟退火混合算法的移动机器人全局路径规划［J］.控制与决策，2010，25（2）：237-240.

［9］张雷，胡云安，张杨，王佩飞.基于Backstepping的严格反馈极值搜索系统控制器设计［J］.海军航空工程学院学报，2016，31（4）：401-406.

［10］左斌，李静，胡云安.极值搜索算法研究及其应用［M］.北京：国防工业出版社，2014：1-2.

［11］Y.Tan，Y.P，I.M.Y.Mareels.Extremum Seeking for Constrained Inputs［J］.IEEE Transactions on Automatic Control，2013，58（9）：2405-2410.

［12］吴春，齐蓉，陈晓雷.基于障碍Lyapunov函数的输出有界全局收敛鲁棒控制［J］.控制与决策，2014，30（3）：448-454.

［13］刘勇华.一类不确定非线性系统的预定性能自适应控制［J］.控制理论与应用，2014，31（8）：1123-1127.

［14］ Yongming Li，Shaocheng Tong.Prescribed performance adaptive fuzzy output-feedback dynamic surface control for nonlinear large-scale systems with time delays［J］.Information Sciences，2015，292（3）：125-142.

［15］ ShuaiSui，ShaochengTong，YongmingLi.Observer-based fuzzy adaptive prescribed performance tracking control for nonlinear stochastic systems with input saturation［J］.Neurocomputing，2015，158（2）：100-108.