考虑非线性奖惩机制的多主体主从博弈模型

2022-01-24 14:19王乐乐陈佳佳焦丕华赵艳雷

控制理论与应用 2021年12期

王乐乐，陈佳佳，焦丕华，赵艳雷，彭克

(山东理工大学电气与电子工程学院，山东淄博 255000)

1 引言

随着电力市场开放程度的进一步提高，电能交易的多元化以及复杂化给市场中所有参与主体最优决策的确定带来了新的挑战[1].传统的决策理论已经无法解决多主体间错综复杂的交互问题，而博弈论作为需求响应架构下能有力推动智能决策的工具，被广泛应用于开放市场角度下多主体参与的复杂电力系统[2-3].此外，对一个电力系统来说，其安全稳定运行的关键是保证电能供需的动态平衡[4];否则，会产生一系列的经济、安全问题.例如，供电能力过剩时，会增加发电成本、造成电力资源的浪费;而供电能力不足时，又会造成系统超负荷运行，系统故障频发，严重影响国民经济的发展[5].解决电能的供需矛盾问题主要有两种措施:一是通过增减电力设备来达到供需平衡[6];二是利用电力价格的调控作用以实现供需平衡[7].特别地，当用户的负荷需求动态变化时，措施二中电价的实时调节相比第一个措施更为有效[8].

目前，已存在大量的文献将博弈理论应用于电力市场实时电价问题的相关探究中.在文献[9]中，作者构建了微网运营商与负荷聚合商的非合作博弈模型.但并未考虑负荷聚合商的议价权，难以充分发挥其参与需求响应的积极性.文献[10]构建了一个虚拟的电能交易过程，制定一主多从的Stackelberg博弈，利用逆向归纳法求得纳什均衡解.文献[11]将描述需求侧负荷聚合商交互的演化博弈同系统供需互动的Stackelberg博弈相结合，构建了一个考虑市场因素的系统混合博弈模型.文献[12]构建了一个含零售商和用户的多主体博弈框架.与文献[12]不同，文献[13]综合发电企业、售电公司以及用户，建立了市场多主体博弈模型.然而，在文献[12-13]中，处于博弈下层的主体缺乏对价格的主导权，会在一定程度上影响其市场参与度.此外，还有一些工作将双边合同交易机制引入电力市场博弈策略的研究中[14].为了弥补上述文献所考虑的单区域内电能过剩或短缺的情况，文献[15]构建了一个跨区域现货市场下的多主体主从博弈模型.在文献[16]中，立足于实现电网与多类型发电厂利益均衡的出发点，建立以电网为主体、风水气发电厂为从体的一主三从的主从博弈模型.除各种非合作博弈的应用研究外，文献[17]应用合作博弈来实现多微电网的资源分配和管理.

演化博弈虽然起源于生物学，但由于其效率高，在工程研究中有着广泛的应用[18]，特别是在多买家多卖家的情形下[19-20].在文献[21]中，提到具有多个公用事业公司和多个住宅用户的需求响应管理场景与演化博弈模型非常匹配.文献[22]综合考虑电力系统和交通系统，提出了一种基于分层博弈的电动汽车充电导航框架.其中在上层利用非合作博弈对充电站之间的竞争进行建模;在下层制定演化博弈，以演化电动汽车在选择充电站时的策略.文献[23]将演化博弈引入到发电商的竞价策略中，并构造了复合微分演化博弈算法实现发电商竞价发电的动态演化博弈过程，最终通过动态演化在不确定性环境中实现稳定的最优竞价策略.针对多群体用户的需求响应决策问题，文献[24]利用演化博弈论中的复制者动态概念建立一般情形下的N群体非对称演化博弈模型，从而通过用户种群间的动态交互决策，获得用户种群最优的用电计划.

综上所述，对电力市场下多利益主体参与的能源管理、电价机制、利益分配等问题，仍需要进一步的研究.本文在现有研究成果的基础上，建立了一个考虑双边非线性奖惩机制的市场多主体主从博弈模型.

2 双边非线性动态奖惩电价机制

2.1 零售商–用户交互模型

本文结合电力市场的实际运营过程，考虑一个由多个零售商和多个用户组成的零售市场.致力于实现内部电能供需平衡，着眼于提高用户主动权，提出动态奖惩电价机制来弥补以往电价模型仅由供方主导而缺乏电能供需双向调节功能的缺点，并利用主从博弈等知识解决多主体之间的利益均衡问题.

假设市场中有M个零售商和N个用户参与能量与信息交互，如图1所示.本文将一天看作一个控制周期，它被划分为一组等时间间隔的时间段集合，记作Ω.有Ω={1，2，···，t，···，24}，其中t表示一天中的某一个时刻.此外，将零售商集合记作Θ={1，2，···，j，···，m};用户集合记为Ψ={1，2，···，i，···，n}.

图1 市场多主体交互模型Fig.1 Interaction model of market multi-agent

2.2 动态奖惩电价

零售商在对用户进行电能供给的同时，也会与用户侧产生必要的信息交互.用户将需求量上报给零售商，零售商通过价格信号引导用户的用电行为.目前，我国的电价机制主要采用阶梯电价和分时电价.这两种电价机制是一种由卖方主导的固定分档电价机制，存在分档标准不合理、用户满意度不高、实施方案不完善等问题.而一个合理的电价机制应该既能满足用户的实际用电需求，又有利于零售商的管理与调度.在本文中，零售商在尽可能满足用户最优用电需求的基础上，为了激励用户计划用电，提出采用以下双边非线性奖惩电价:

该电价机制根据用户的实际用电行为给予奖励或者惩罚，是一种由电力供需双方共同参与制定的电价机制.其通过设计期望用电量以使单位用电成本最小来诱导用户按期望用电量用电.这种电价机制可化解目前由电力部门主导的固定分档电价机制所带来的收费分档和电力供需矛盾.电力公司依据期望用电量可确切了解用户的真实电力需求，以便及时安排和调整电力生产，从全局最优角度实施电力监控与调度，进而提高电力资源的有效利用率，促进电力资源可持续发展.

当用户实际用电量与期望用电量的偏差小于电量裕度Δ时，用户电价模式为奖励电价;反之，为惩罚电价，如图2所示.其中，阴影部分表示用户因期望用电量与实际用电量的偏差所产生的奖励费用和惩罚费用.具体地，电价机制表示为

图2 双边非线性动态奖惩电价模型Fig.2 Bilateral nonlinear reward and punishment electricity price model

3 市场多主体主从博弈模型

3.1 零售商–用户的主从博弈模型

随着电力市场的进一步开放，市场中出现更多具有自我决策能力和主观能动性的利益主体.因此，售电侧与需求侧多主体、多元化的交易势必会产生错综复杂的博弈行为.考虑到零售商和用户的顺序行为，本文采用主从博弈刻画两个主体的行为特征.首先，将零售商和用户之间的主从博弈表示为

其主要包括以下几个基本要素:

1)Θ={1，···，j，···，m}表示零售商集合;零售商为用户提供电能，处于主从博弈的上层(领导者).Ψ={1，···，i，···，n}表示用户集合;用户通过选择性购电实现自身利益最大化，处于主从博弈的下层(跟随者).

2)Xi为集合Ψ中用户i的用电策略集合，其中用户i在零售商j的用电策略表示为xi，j.

3){Ui，···，Un}表示n个用户的效用函数，如式(5)所示.

4)Pj表示集合Θ中零售商j的电价策略集合，其中pj表示零售商j的单位电价.

5){Ij，···，Im}为m个零售商的利润函数，如式(7)所示.

用户处于主从博弈的下层，其目标是通过选择零售商购电实现最优的用电计划.而用户的用电需求是存在不确定性的，用电需求受用户自身满意度以及实时电价的影响.为了描述用户的用电满意度，选择如式(5)所示的边际效益递减的二次函数[25]:

在本文所提的动态奖惩电价机制中，零售商需要获得关于用户期望用电量的信息，并根据总的用户期望用电量前往批发市场购电.本文依据用户收益最大化的原则获得

将式(5)代入式(7)，有

在零售商与用户的交互过程中，零售商处于博弈的上层，其目标是通过调整实时电价来最大化自身的利润.零售商j在t时段的利润函数表示为

式中Pt为某时段t的电力批发价格.

3.2 用户之间的演化博弈模型

在多主体参与的电力市场下，过去的垄断模式被打破，新型电力市场赋予了用户更多自由选择的权利.为了描述用户对零售商的选择过程，本文采用演化博弈刻画用户获得电能的策略行为.同一般的演化博弈类似，本文将所有用户看作一个种群.所有用户的策略行为是相同的，即当某个用户收到零售商宣布的电价后，选择其中一个零售商购电，再通过观察和模仿其他用户的策略来调整自己的行为.首先，本文将用户之间的演化博弈定义为

其主要包括以下几个基本要素:

1) 参与者为市场中存在的n个用户，用户集合记为Ψ，任意一个用户i ∈Ψ.

2) 集合Ψ中的所有用户被视为参与博弈的一个种群.

3) 用户在演化博弈中的策略为用户对零售商的选择，记用户的选择概率为ϖj、种群状态为Φ，有ϖj∈Φ.

4){vj，···，vm}表示用户选择零售商购电之后所产生的效用，如式(12)所示.

假设用户在某个时段t选择零售商j购电的概率为，其中0 ≤=1，则种群状态为

由式(6)得到用户i的效用函数，并比较的相对大小，结合式(3)，求得用户的最优电量需求，如式(11)所示:

用户间的演化博弈发生在零售商宣布电价之后，因此，在时段t的演化博弈过程中，基本电价和奖惩系数一经零售商宣布则保持不变.结合式(11)，得到3种情形下用户从零售商j获得的效用

3.3 主从博弈均衡

本文搭建的多主体主从博弈模型，其中零售商为博弈的领导者，具有先动优势.零售商以自身收益最大化为目标制定价格策略P，并会根据用户(跟随者)的最优选择，再做出对自己最有利的策略.在零售商宣布电价以后，用户会选择一个零售商购电最终达到最优电量消费.在此博弈中跟随者的均衡策略是对零售商宣布的价格策略P作出的最优反应.

由上述博弈的定义已知，Pj和Xi分别为零售商j和用户i的策略集合.则所有零售商和所有用户的策略集合为

为所有用户的策略，ϖ(p*)为所有用户对价格向量的最优反应，可通过用户的演化博弈算法得到.将ϖ(p*)反馈给上层所有零售商后，零售商进行价格竞争得到纳什均衡，均衡价格再次被告知给全部用户，重复进行上述过程直至p*和ϖ(p*)保持稳定不变，则向量(p*，ϖ(p*))即为主从博弈的均衡策略.

4 主从博弈模型的求解及分析

4.1 纳什均衡解的存在性

弗里德曼(Friedman，1998)指出演化稳定策略是纳什均衡的精炼.并给出了演化均衡与演化稳定策略、纳什均衡之间的关系[27]:

1) 每一个纳什均衡都是动态系统的平衡点;

2) 演化均衡一定是纳什均衡;

3) 复制动力学方程保证演化稳定策略为演化均衡.

弗里德曼还认为，演化博弈论中最为有用、运用最为广泛的均衡概念并不是演化稳定策略，而是演化均衡.因为行为按照某种动态随时间变化的假设是合乎情理的.此外，演化博弈中的演化均衡类似于非合作博弈中的纳什均衡.它是一个演化博弈的解决方案，种群将不会通过偏离这一点而获益.另一个重要的概念是复制因子，它描述了种群的选择动态，可以用一组常微分方程来建模.因此，通过设计合适的复制因子，种群才能逐渐达到演化均衡[18].本文构建了复制动力学方程(13)以描述用户种群的动态选择行为，并证明了演化均衡的收敛性.种群最终能够得到最优的解决方案，因此不需要再证明纳什均衡的稳定性.

根据纳什均衡原理，若能满足下列引理中的条件，则博弈存在纳什均衡解[28].

引理11)参与主体的策略空间为一非空实数集;2)参与主体的策略空间是有界的和凸的;3)参与主体的效用函数在其策略空间内是拟凹的、连续的.

当零售商宣布电价后，所有用户收到价格便参与演化过程，直至达到演化均衡.具有复制动力学方程(13)的演化均衡的收敛性已被证明，因此，只要零售商在价格博弈中收敛到一个纳什均衡，则零售商与用户之间的主从博弈存在纳什均衡.

定理1在零售市场中，零售商之间的价格博弈存在纳什均衡.

证在零售商之间关于价格竞争的策略互动生成的非合作博弈中，存在其中，下限为零售商考虑在内的成本，包括购电成本和相应的运行费用等;上限要根据政府的政策来确定.零售商不可能降低价格使价格低于，也不能违背政策肆意提价.零售商必须考虑该价格限制，因此，零售商的策略集合是非空、闭合、有界的，并且为Rm的紧凸子集.

此外，由式(9)已得到零售商的利润函数，并将式(3)和式(11)代入，可得

因此，函数关于价格bj拟凹.综上所述，由引理1可知零售商之间的价格博弈存在纳什均衡.

4.2 博弈模型的分布式求解算法

4.2.1 算法求解流程图

传统的求解有关市场均衡模型的集中式算法，需要各参与主体的完全信息，例如用电效益信息、成本信息等.此外，市场涉及了大量的参与主体，传统的集中式算法在收集了所有必要信息之后进行计算，计算规模会比较大.考虑到在电力市场实际运行的过程中，一些信息为各参与主体的私有信息.这种信息的不完全性和计算规模的巨大限制了传统算法的应用.而分布式算法可以弥补上述不足，因此，本文设计了分布式算法进行求解.算法的求解流程如图3所示.

图3 多主体主从博弈模型的求解流程图Fig.3 Flowchart of solving multi-agent master-slave game model

4.2.2 分布式算法求解分析

对本文主从博弈的求解主要分两个部分:零售商的电价调整算法和用户的演化博弈算法.本文设计零售商的分布式电价调整算法使所有零售商达到纳什均衡，进而和用户间的演化均衡交互信息来进行顺次竞争，通过迭代实现主从博弈均衡.

式中:γ1为算法的迭代次数，λ1为迭代步长.该算法的收敛标准为

如图3所示，在零售商调整电价之后，用户演化博弈得到一个新的演化均衡.用户的均衡策略传递给零售商，零售商将再次调整价格，重复进行两个过程，直到零售商的价格策略和用户的用电策略保持稳定.具体的实现步骤如下.

4.2.3 分布式算法的收敛性分析

综上所述，式(16)所示的电价调整算法和式(18)所示的演化博弈算法是全局渐进稳定的，收敛性被证明.

5 算例分析

本算例考虑一个由3个零售商和50个用户组成的零售市场.首先，给出算例验证所需要的参数[17]:α=1，λ=λ1=0.05，ε=0.02，ω的取值区间为[0.1，5].此外，零售商购电所需要的批发价格Pt参照美国PJM市场2018年11月的电力市场数据.

根据第4节所设计的分布式算法对主从博弈模型求解发现，无论是零售商的实时电价及售电利润，还是用户的总电力需求、选择概率ϖ都最终收敛到一个确定的值，实现零售商和用户之间的主从博弈均衡，均衡解如表1所示.通过对比表中的数据发现，零售商的实时电价相对较低，则用户选择该零售商购电的概率也就越高.这与用户实际的电力消费行为所吻合，验证了本文所提方法的合理性.

表1 主从博弈的纳什均衡解Table 1 Equilibrium solution of master-slave game

图4展示了用户选择各零售商购电概率的收敛曲线.观察图示可知，曲线在算法迭代38次时快速收敛，并表现出良好的稳定性.这说明用户能够快速实现演化均衡.为了进一步验证算法的收敛性，随即进行了10次仿真，结果如表2所示.通过10次分布式算法求解验证，发现达到主从博弈均衡时，最小迭代次数为37次.此外，在合理范围内任意改变零售商的电价初值，上述各主体博弈策略均能快速收敛.

图4 用户选择概率的收敛曲线Fig.4 The convergence curve of users selection probability

表2 10次仿真验证结果Table 2 The results of 10 simulations

同时，为了验证用户数量对算法收敛性的影响，本文通过更改用户数量，得到关于算法收敛时长和迭代次数的变化，如图5所示.通过上述仿真验证了本文所提出的分布式算法具有较快的收敛速度和良好的稳定性能.

图5 用户数量变化时所需要的仿真时长和迭代次数Fig.5 Simulation duration and iteration numbers when the number of users changes

在达到主从博弈均衡时，所有用户24 h的购电分布由图6给出.通过对比用户一天的购电分布，并结合表1可以发现:与零售商2和零售商3相比，零售商1的报价相对比较低，所以用户在零售商1处购买的电量相对比较多.这说明本文所构建的多主体主从博弈模型，可以促使零售商积极降低自身成本来降低电价从而赢得更多的市场份额.最后，对比了有无动态奖惩机制的市场供需平衡状态，如表3所示.本文所提的动态奖惩机制，通过设计用户期望用电量使用户单位用电成本最小，从而引导用户按期望用电量用电.而零售商则是根据用户期望用电量前往批发市场购电，以此满足用户的用电需求.所以，在含动态奖惩机制的市场多主体博弈中，供需平衡状态更好.反观传统根据实时电价引导用户用电的供需平衡状态，供需偏差量最大可达0.0201 MWh.若遇到夏季炎热用电高峰时期，可造成系统超负荷运行，不利于系统的稳定运行.同时，由于动态奖惩机制的引入，一个用户一天可节省成本达11.6503元，50个用户能节省成本可达560.4429 元.

表3 有无动态奖惩机制下的供需量对比Table 3 Comparison of supply and demand with and without dynamic reward and punishment mechanism MWh

图6 纳什均衡下用户的购电分布Fig.6 The power purchase distribution of users under Nash equilibrium

6 结论

本文建立了一个考虑双边非线性奖惩机制的市场多主体主从博弈模型.分析验证了电价机制、博弈模型以及分布式算法的合理性和有效性，主要结论如下:

1) 引入的双边非线性动态奖惩电价机制能激励用户按期望用电量用电，解决零售市场的供需不平衡问题;同时还能降低用户的用电成本.

2) 所构建的主从博弈模型能有效解决零售商和用户之间复杂的交互问题.此外，考虑的演化博弈能形象的描述用户的动态选择过程，并最终能够获得纳什均衡解.

3) 本文所设计的分布式求解算法，具有很快的收敛速度及良好的稳定性能.

4) 本文所涉及的电力市场为未考虑发电侧的零售市场，在如今多元化的大开放环境下，批发市场和零售市场是密不可分的.因此在后续的研究中，会将含多个发电商在内的批发市场考虑在内.