基于增量控制的一致性问题及其在供应链系统的应用

2023-09-25 19:32武梅高依苹邵蒋杰

计算机时代 2023年9期

武梅高依苹邵蒋杰

摘要：将增量控制方法应用于多智能体一致性问题。通过将相邻智能体的控制变量作为控制输入来更新每个智能体的状态，可以在一定初始条件下将系统转化为线性一致性问题，并应用于供应链库存系统。而在实际中，由于统计过程复杂，系统很难获得准确的库存水平，因此，利用增量控制输入可实现相应工厂的库存水平一致，从而稳定整个市场供应。最后，通过仿真实验验证了该理论方法的有效性。

关键词：一致性；供应链系统；增量；多智能体系统

中图分类号：TP13 文献标识码：A 文章编号：1006-8228（2023）09-64-05

Increment control method of consensus problem and its

application in supply chain systems

Wu Mei1， Gao Yiping2， Shao Jiangjie2

（1. School of Information Science and Engineering， Zhejiang Sci-Tech University， Hangzhou， Zhejiang 310018， China;

2. School of Computer Science and Technology， Zhejiang Sci-Tech University）

Abstract： In this paper， an increment control method is applied in the multi-agent consensus problem. By taking the control variables of neighboring agents as the control input to update each agent's state， the system can be transformed into a linear consensus problem under the circumstance of certain initial values and applied to the supply chain systems. In practice， it is difficult for the system to obtain exact inventory quantity of each facility due to the complex statistical process. Therefore， the incremental counterpart is utilized to achieve inventory level consensus for corresponding facilities， so as to stabilize the whole market supply. Finally， simulations are provided to demonstrate the effectiveness of the theoretical method.

Key words： consensus; supply chain systems; increment; multi-agent systems

0 引言

近幾十年来，多智能体系统的一致性问题引起了广泛关注。多智能体系统在许多领域发挥了重要作用，如电力系统经济调度、社交网络决策、卫星编队控制、分布式机器学习等。

早在二十世纪七十年代，DeGroot[1]首次提出了管理学和统计学领域的一致性概念，利用加权平方的方法来估计小组中的个人意见，并就参数的概率分布函数达成组内人员意见一致。直到二十一世纪，文献[2]才提出相应的理论分析。随后，许多学者在时延或有限时间控制、非线性系统、二阶或高阶系统等方面对一致性问题进行了研究。随着计算机科学的快速发展，基于强化学习的方法被应用于解决系统中含有错误智能体的一致性容错问题。在现有文献中，解决多智能体一致性的方法均是假设可以通过本地通信获得智能体之间的绝对或相对状态，因此状态被视为系统的控制输入。此外，一些研究人员将智能体分成小组，并利用相关组信息作为控制输入，以实现系统一致性[3]。

然而，在一些实际场景中，当无法获得智能体或组之间的绝对或相对状态信息时，现有的一致性方法将不再适用。例如，在供应链仓库系统中[4]，由于统计过程需要大量的人力物力，很难获得每个仓库的准确库存量。鉴于上述情况，可以将增量状态信息（即库存变化）用作控制输入，以达到库存一致的目标，这将大大减少资源投资和人力耗损。

本文中，我们提出了一种新的分布式方法，解决当系统中既不存在智能体间相对状态信息也不存在组间相对状态信息时的一致性问题。具体而言，引入前一时刻中相邻智能体的控制变量（增量状态）来更新当前智能体的状态。当初始控制输入满足邻居的平均状态的情况时，目标就等价于具有均匀相邻权重的线性一致性系统，此时，系统必然可以达成一致。进一步地，研究了一个包含多个子链的供应链系统模型，其中每个子链被视为一个智能体且包含不同的工厂，不同子链中的相应工厂之间发生信息交互。通过输入控制增量进行状态更新，每个子链中各个工厂的库存水平达到一致，并通过仿真实验进行了相应的验证。

本文的贡献如下：①提出的方法是首次在不存在智能体间相对状态和组间相对信息的情况下利用增量控制来实现系统一致；②增量控制方法能够减少复杂大规模数据统计的计算负荷。我们通过将该策略应用于供应链系统来实现库存水平的一致性，从而证明了这一能力。

1 相关知识

1.1 图论

在智能体系统中，把一个智能体看作是一个节点，智能体之间的信息交互看作是连接成功的节点的边，采用图论知识来刻画整个系统的拓扑结构。

用[G=V，E，A]来表示多个节点之间的有向信息交互拓扑，其中[V={1，2，…，N}]表示[N]个节点构成的集合，[E⊆V×V]表示边集，即：节点之间有向的连接关系。[Ni=i|j∈V，j，i∈E]表示节点[i]的邻居集合，[A=[aij]∈RN×N]表示节点的邻接矩阵。当存在[（j，i）∈E]且[aij>0]时，表明节点[i]和节点[j]之间存在邻居关系，否则[aij=0]。有向图又可称为强连接图，表示当且仅当存在至少一个根节点以直接或间接的方式可以到达其他任何节点。在一般情况下，本文拓扑图是准强连通的。

1.2 系统模型

考虑一组含有[n]个智能体的离散时间系统，第[i]个智能体的动力学模型可描述为：

[xik+1=xik+uik， i∈V] ⑴

其中，[xi（k）∈R]和[ui（k）∈R]分别表示智能体[i]在[k]时刻的状态和控制输入，在此[n]个智能体的初始状态表示为[X0=[x10，x20，…，xn0]T]。在一些情况下，智能体也可以表示为组信息，用[Gi]表示。

本文中，假设智能体[i]既无法获得其邻居的绝对状态信息[xi]，也无法获得其与邻居智能体[j]的相对状态信息[（xj-xi）]或者相对组信息[（Gj-Gi）]。此外，对于每个智能体来说，可以获得其邻居智能体的状态增量信息。在很多实际场景中都可能发生这种情况，比如供应链系统的应用[5]，配电系统中的局部电压控制[6]。以供应链系统为例，由于库存量庞大以及复杂的统计过程，实际中很难获得准确的库存数量，而获取每个工厂及其邻近工厂的增量部分，用以稳定整个市场的供应一致是可行的。

因此，本文的目标是为每个智能体[i]设计合适的控制输入[ui（k）]，以便在最后一步通过相邻智能体的控制输入[uj（k-1）]，确保智能体在足够小的[ε]范围内，实现系统的状态一致。

[limsupk→∞maxi≠jxik-xj（k）<ε] ⑵

2 主要结论

本文中，研究多智能体系统在邻居智能体的绝对或相对状态信息未知，仅基于邻居智能体的增量变化的情况下，达成系统的一致。首次引入控制变量研究多智能体的一致性问题，为了简化分析，我们以固定拓扑的情况来进行分析。

对于智能体[i]，其控制输入为：

[uik+1=uik+j∈Niuj（k）Ni+1， i∈V] ⑶

由此，可得如下主要结论。

定理1 对于每个智能体，其状态的更新仅与邻居智能体的控制变量和自己的状态值相关，当且仅当其初始控制输入满足如下，多智能体系统可达成一致。

[ui0=xi0+j∈Nixj（0）Ni+1-xi（0）] ⑷

此时，我们所提出的算法等价于具有相同邻居权重的经典一致性算法，即：

[xik+1=xik+j∈Nixj（k）Ni+1] ⑸

当系统拓扑为固定拓扑时，系统可达成一致。

算法的具体细节参见算法1。

[算法1：智能体[i]基于增量控制的一致性算法随机初始化智能体[i]的值：[xi（0）] 控制输入：[ui0=xi0+j∈Nixj（0）Ni+1-xi（0）]

智能体[i]在1时刻的值：[xi1=xi0+ui（0）] For[k=0 to T ]do

[ uik+1=uik+j∈NiujkNi+1]

[ xik+2=xik+1+ui（k+1）] End For ]

备注1 当多智能体系统拓扑结构为平衡拓扑时，即每个智能体的入度等于出度，所提算法任然可使系统达成一致。读者可参考Carli[7]等相关工作。

3 供应链系统模型

在本文中，假设每条供应链含有[N]条结构相似功能相同的子链，每条子链包含[n]个类似的工厂，其中，子链看作是结构图中的节点。

[Xik=xi1k，xi2k，…，xinkT∈Rn]

[Uik=ui1k，ui2k，…，uinkT∈Rn]

[Dik=[0，…，0，din（k）]T∈Rn]

假设1 第[i]个子链，库存水平满足[0<xij（k）<xM]，對于一些易腐物品，库存水平随着时间的推移将以[ρi]的速率衰减。

备注2 在实际应用中，由于库存能力的限制，每个工厂[xij（k）]的最大库存限制量为[xM]。特别是，某些易腐产品（如蔬菜）的库存水平可能会随着时间的推移而降低。

假设2 市场需求[dink]分为两个部分，一部分为市场固定需求[din]，另一部分为市场波动[ωin（k）]。因此，市场需求可以表示为：

[dink=din+ωin（k）] ⑹

在系统中，为了实现整个系统的一致性，从而保证市场的稳定供应，每个智能体需要根据邻居的行为调整各自的生产力。在此，交换的信息不是每个相邻智能体的具体库存水平，而是邻居的增量状态。因此，第[i]个子链的第[j]个工厂的控制输入分为两部分：一部分为[uij（k）]控制生产率以满足供应需求，另一部分[uij（k）]调整库存水平以实现系统一致。当初始值满足[uij0=xij0+l∈Nixlj（0）Ni+1-xij（0）]，有如下：

[uijk=uijk+uijk]

[uijk=kij×xijk]

[uijk=uijk-1+l∈Niulj（k-1）Ni+1]

其中，[kij]代表生产率，表示为：

[ki1k=ui2k+1-ρ1xi1kxi1k=ui2kxi1k+1-ρ1]

[ki2k=ui3k+1-ρ2xi2kxi2k=ui3kxi2k+1-ρ2]

[kink=dink+1-ρnxinkxink=dinkxink+1-ρn]

因此，第[i]个智能体（子链）的生产过程模型为：

[xi1k+1=ρ1xi1k+ui1k-ui2k]

[xi2k+1=ρ2xi2k+ui2k-ui3k]

[xink+1=ρnxink+uink-dink]

第[i]个子链的生产过程如图1所示，其中[ρn]表示第[n]个工厂的库存保留率，[1-ρn]表示第[n]个工厂的衰减量，在此处，假设不同子链相应工厂的衰减量相同； [uin（k）]表示第[i]条子链第[n]个工厂的生产量：[din]表示第[i]条子链第[n]个工厂的市场需求量；[xin]表示第[i]条子链第[n]个工厂的库存水平即库存量。

4 实验结果和分析

在这个部分，我们首先考虑一个数值仿真证明所提出的算法，分别针对普通拓扑和平衡拓扑进行实验。其次，构建一个含有四条子链，每个子链拥有三个工厂的供应链系统，并将所提算法应用于该供应链系统模型，通过实验仿真分析其有效性。

4.1 数值仿真

考虑一个[n=10]的多智能体系统，每个智能体的初始值为0～10中的随机数。智能体之间的通信拓扑如图2所示，其为一个强连通有向图，仿真结果显示，智能体可在几步之内就达成一致，如图3所示。

若通信拓扑为平衡拓扑，即对于每一个智能体来说，入度等于出度，此时所有智能体的状态都收敛到初始状态的平均值，可实现平均一致性[8]。

由于在我们的问题中假设智能体之间的状态信息未知，因此应该估计初始控制输入对相邻智能体状态的影响，评估初始值不准确对收敛性能的影响。在这种情况下，初始控制输入[ui0=xi0+（1-γ）j∈Nixj（0）Ni+1-xi（0）]，其中[γ∈[-e，e]]，误差[e∈[0，0.5]]，这意味着每个智能体[i]从具有[[-e，e]]误差的所有邻居智能体接收信息。我们以0.01的步长对[e]中的不同值进行采样，并对每个值进行4000次实验。然后，将每200个实验结果分组，以计算系统达到一致性时的标准偏差。最后，在给定特定误差的情况下，共绘制了20个结果，如图4所示。可以得出两个结论。首先，标准差相对于误差[e]几乎线性增长。其次，随着初始控制变量中误差的增加，标准差的变化越大，这意味着系统行为更难预测。

4.2 供应链系统的数值仿真

在本小节中，我们考虑一个由四个子链组成的供应链系统，每个子链包含三个工厂，这些工厂可以独立生产和分销产品。相应的生产流程如图5所示。

当每个子链被视为一个图节点时，不同子链之间对应的通信拓扑如图6所示。初始时刻，库存水平设定为[X10=2.3， 5.2， 8.9T]，[X20=7.5， 6.4， 6.6T]，[X3（0）=6.7， 3.1， 4.5T]，[X4（0）=4.8， 4.3， 2.1T]。每个工厂的库存保留率设置为[ρ1=0.8]，[ρ2=0.7]，[ρ3=0.8]。此外，对于市场需求[din（k）]，所有固定需求部分均为[din=1]，不确定的市场需求部分分别设置[ω1k=e-0.43kcos （k）]，[ω2k=e-0.4kcos （k）]，[ω3k=e-0.48kcos （k）]，[ω4k=e-0.45kcos （k）]。

根据算法1，相应的模拟结果如图7～图9所示，对于每个子链中的相应工厂中的库存水平，逐步达成一致。此外，我们分析了整个系统就库存达成一致所需的时间。对于上述相同的供应链系统，初始库存水平从0-10随机抽样，而其他参数保持不变。通过重复该实验100次，工厂1和工厂2达成一致所需的时间相似，而工厂3达成一致的时间相对较长。显然，这是因为工厂3与市场直接相连，市场波动会影响其收敛时间。

5 结束语

在本文中，我们提出了一种在多智能体系统中仅通过增量状态实现一致性的新方法。该方法在通信拓扑满足一般连接性要求的条件下，引入每个智能体及其邻居的控制变量信息，作为更新其自身状态的控制输入。理论分析和数值模拟表明了该方法的有效性。同时，在供应链系统中采用所提出的方法来达成库存一致。另外，对于平衡的拓扑结构，也可以实现平均一致。但仍有一些问题尚未解决，首先，实际场景中的拓扑通常是动态的，这是未来应该考虑的问题。其次，能否放宽对初始条件的限制可能是一个新的研究方向。

参考文献（References）：

[1] DeGroot M H. Reaching a consensus[J]. Journal of theAmerican Statistical association，1974，69（345）：118-121.

[2] Jadbabaie A， Lin J， Morse A S. Coordination of groups ofmobile autonomous agents using nearestneighbor rules[J].IEEE Transactions on automatic control，2003，48（6）：988-1001.

[3] 侯健，郑荣濠.随机分组策略下的分布式多智能体一致性[J].控制理论与应用，2018，35（4）：517-522.

[4] 覃茜.基于多智能体的供应链系统在切换拓扑下的[H∞]一致性[D].山西：山西大学，2017.

[5] 高杉杉，刘永泽，王冰，等.基于切换拓扑的供应链系统库存[H∞]一致性[C]//中国自动化学会控制理论专业委员会（Technical Committee on Control Theory， Chinese Association of Automation），中國自动化学会（Chinese Association of Automation），中国系统工程学会（Systems Engineering Society of China）.第40届中国控制会议论文集（15），2021：6.

[6] Farivar M， Zho X， Chen L. Local voltage control indistribution systems： An incremental control algorithm[C]//2015 IEEE international conference on smart grid communications （SmartGridComm）.IEEE，2015：732-737.

[7] Carli R， Fagnani F， Frasca P， et al. Average consensus onnetworks with transmission noise or quantization[C]//2007 European Control Conference （ECC）. IEEE，2007：1852-1857.

[8] 俞辉，蹇继贵，王永骥.多智能体有向网络的加权平均一致性[J].微计算机信息，2007，192（5）：239-241.