废旧汽车零部件再制造回收模型优化研究①

2024-03-20 08:22宣博文王秋成孙伟策柳政卿
高技术通讯 2024年2期
关键词:闭环逆向适应度

宣博文 王秋成 孙伟策 柳政卿

(浙江工业大学机械工程学院 杭州 310023)

废旧汽车零部件再制造产业是国内外再制造产业中企业数量最多、技术成熟度最高和产业规模最大的领域之一[1]。我国传统的再制造供应链在管理中存在协调性差、管理成本高、顾客服务水平低、“牛鞭效应”显著等缺点[2]。因此,基于“互联网+”建立废旧汽车零部件回收与再制造智能交易平台,科学布局大中型回收、拆解、检测和再制造企业,形成再制造供应链管理新模式,是促进再制造产业良性发展的有效途径。

废旧汽车零部件的回收决策问题是再制造产业链的起点,也是建立第三方回收平台的基础。从回收模式的角度出发,Savaskan 和Wassenhove[3]将再制造原材料的获取分为3 种模式/渠道:M 模式(制造商回收)、R 模式(零售商回收)和3P 模式(第三方回收)。在此基础上,周雄伟等人[4]构建了3 种再制造闭环供应链决策模型,考察不同渠道下参与主体最优决策差异和基于回收产品质量水平的回收渠道选择问题。Yan[5]以再制造逆向物流为研究对象,通过分析3 种回收模式的特点,得出最优的回收渠道结构。Younes 等人[6]在零售商负责回收的供应链中分别考虑合作及非合作博弈的情况,并在逆向供应链主导的情况下,对供应链系统的定价策略问题进行了研究和讨论。

从回收策略角度出发,Li 等人[7]以时尚产品为研究目标,讨论了在闭环供应链成员之间存在产品返回时的最佳定价策略和采购策略。Zhu 和Wang[8]通过实验对比分析定价策略,发现完全理性的定价策略与实际决策结果往往存在较大的差异。Savaskan 等人[3]和Zhao[9]将回收投入费用和回收数量假设为关于回收率的凸函数。诸多学者沿用该假设,在此基础上研究闭环供应链的回收决策问题。王道平等人[10]考虑了在再制造回收努力和时间等多种因素影响下的动态回收率对闭环供应链合作策略的影响。此外,Liu 等人[11]建立了双渠道全局闭环供应链网络,探究随机需求和回收率对社会经济效益的影响。

国内外学者在再制造闭环供应链、回收模式和回收策略等诸多方面开展了相关研究,积累了一定的研究基础,但仍然存在以下问题。

(1)关于回收模型的求解方法,多数研究集中在使用传统的KKT(Karush-Kuhn-Tucker)条件或逆向归纳法求解动态或静态博弈的纳什均衡。也有部分学者通过搭建演化博弈模型[12],使用雅可比矩阵找到演化均衡点。传统的求解方法受到函数求导和连续性的约束,不仅推导过程复杂,而且最优解还存在一定的局限性,并不适用于解决工程实际问题。

(2)在闭环供应链研究中,少有聚焦到具体的产品。已有的文献以废旧电子产品或电池回收研究居多[13],而废旧汽车零部件相关的研究较少。

针对上述问题,本文将多目标遗传算法应用于废品回收模型的求解,并以废旧汽车变速箱为例进行算例仿真分析,通过与逆向归纳法进行对比,验证了算法的可行性。该工作具有重要的科学研究价值和工程应用前景,也是当前废旧汽车零部件回收与再制造的主要研究方向。

1 基于废旧汽车零部件的平台回收模型

1.1 回收模型搭建

再制造作为正向物流和逆向物流的结合体,在传统的正向供应链中加入了逆向供应链,从而形成了全新的闭环供应链(closed loop supply chain,CLSC)[14]。本文搭建的供应链模型由再制造商、制造商、零售商和第三方回收平台组成,如图1 所示。再制造商生产再制品,制造商生产新产品,两者以批发价批量提供给销售商;销售商则以市场价将两类产品出售给消费者;第三方平台负责从消费者手中回收废旧品并交由再制造商进行再制造从而形成再制品;此外,激励机制对再制造商给予一定的再制造补贴。本模型的基本参数设置如表1 所示。

表1 基本参数设置

图1 回收模型

为了将模型参数化,提出以下假设。

假设1再制品和新产品在质量、包装、功能上完全相同,但消费者对再制品存在消费价值折扣α,故设再制品的零售价Pr=αP,批发价ωr=αω,α≤1。通过设立消费价值折扣,消费者对再制品不再存在偏见,再制品拥有和新产品等同的市场竞争力。简化计算过程,令X=1 -α。

假设2市场需求D=φ-βP,P为新产品单位 售价,φ为市场容量,β为市场需求关于产品价格的敏感系数。

假设3本文考虑生产商、销售商和平台三者的单周期供应,以一个季度作为周期,研究工作针对闭环供应链的稳定运营阶段。生产商生产和销售商售卖的产品数量满足市场需求D,不考虑产品剩余和存储问题。

假设4考虑再制品生产所消耗的能源与原材料都低于新产品,即Cn>Cr,设Δ=Cn-Cr,称为废旧汽车零部件的剩余利用价值。为了获得足够的经济性,单位回收支付A和单位收购支付B应满足A<B<Δ。

假设5τ为回收平台的废件回收率,参考文献[15]的假设,τ=(I/CL)1/2。其中,I表示回收成本;CL是一个缩放参数,表示废旧品回收和宣传等活动所设计的规模,常用于广告响应模型。本文将回收率τ看作平台为回收废品做出的努力,则回收成本I和回收努力τ呈现边际效用递减规律,即I=CLτ2。

假设6国家为了激励再制造业的发展,对再制造商给出了线性激励机制,激励函数为F=K(τ-τ0)D,其中K为常数,τ0为最低回收率。若实际回收率高于τ0,则再制造商得到补贴;反之则受到惩罚。为了避免“恶意骗补”行为,再制造商一个生产周期内得到的补贴应不超过E。

假设7在本文研究的再制造闭环供应链模型中,生产商有足够的渠道力量支配销售商和回收平台充当领导者,所有成员都按照自身利益的最大化来做决策。

据此列出该回收模型中各参与者的利润函数:

式中,ZM表示生产商利润函数,ZR表示销售商利润函数,ZT表示平台利润函数。

1.2 基于逆向归纳法的理论推导过程

在传统的统筹学和经济学中,将该模型视为完全信息动态博弈,生产商作为博弈的主导者,主要决策为批发价ω;而销售商和平台作为跟随者,会在主导者给出决策后调整自己的决策,其中销售商的决策为市场零售价P,平台的决策为回收率τ。在假设博弈参与者完全理性、非合作、动态博弈的前提下,使用逆向归纳法进行求解其纳什均衡,其求解过程如下。

(1)首先对销售商和平台的利润函数分别求关于P和τ的一阶偏导。

式中β表示市场敏感参数。

(2)再对销售商和平台的利润函数求关于P和τ的二阶偏导。

由此可知,销售商和平台的利润函数存在唯一最大值,且相应的最大值点即为式(5)。

(3)将式(5)带入生产商的利润函数ZM中,对ZM求关于ω的一阶导。

式中,φ、φ为市场容量参数。

为了简化求解过程,令:

ZM的一阶导为一元二次方程,其中自变量ω为新产品批发价,ω>0,二次项系数a<0,可分为以下3 种情况讨论其极值问题。

1)c≥0,此时ZM原函数在ω>0 时先递增,后递减,生产商的决策问题存在唯一最大值解,其最大值点为一阶导函数的正根。

2)b>0,c<0,若此时(b2-4ac)1/2>0,则ZM原函数在ω>0 时先递减,后递增,再递减,生产商的决策问题存在唯一最大值解,其最大值点为一阶导函数较大的根;若此时(b2-4ac)1/2≤0,则ZM原函数在ω>0 时单调递减,无最大值。

3)b≤0,c<0,此时ZM原函数在ω>0 时单调递减,无最大值。

据此,列出该博弈的Nash 均衡如表2 所示。

1.3 基于多目标遗传算法的求解思路

逆向归纳法的本质是一种多目标函数优化问题的算法,将闭环供应链所有参与者视为完全理性且非合作的状态,根据博弈思想逆推反应函数,由此得到Nash 均衡。但使用逆向归纳法时受到诸多规则的约束,且求解过程较为繁琐,在复杂模型中无法进一步推导。

在实际应用中,闭环供应链的参与者往往并非是完全理性的,并且存在着合作的可能。因此本文在博弈过程中引入学习和进化的思想,假设生产商、销售商和平台之间存在合作的空间,并通过试错的方式不断调整决策,最终达到各自的利益最大化。

遗传算法是一种具有“生成+检测”的迭代过程启发式的搜索算法,其本质是一种高效、并行、全局搜索的方法[16],且不存在求导和函数连续性问题,非常适用于求解多目标函数的最优解问题。其具体工作流程如图2 所示。

图2 遗传算法流程图

在本文研究的模型中,将各参与者的回收和定价决策视为自变量,并将自变量的取值范围和精度转化为基因编码的形式,一组基因生成一个染色体,带有染色体特征的实体则称为个体。在算法求解过程中,首先随机生成一组个体,数量为N,称之为初代种群。接着计算该种群中所有个体的适应度,也就是目标函数值,并从中筛选出适应度高的个体遗传到下一代。再对适应度高的个体进行遗传操作,控制其染色体进行交叉和变异,从而生成新一代的种群。对新种群重复进行筛选和遗传,经过M次迭代后使种群的适应度不断逼近极限值,进而得到目标函数的最优解。

遗传算子设置如下。

(1)适应度函数。本文研究的多目标遗传算法适应度函数即为目标利润函数,利润函数值越大,代表其适应度越高,各参与者的主要决策则为自变量。故模型的适应度函数即为式(1)~(3),取ω、P、τ为3 个自变量。

(2)遗传编码。在遗传算法中,需要将自变量转换为染色体以进行遗传操作。常用的遗传编码方法有二进制编码、格雷编码、浮点编码和符号编码等。本文研究的回收模型中,ω和P均为正整数,对精度要求较低,因此选择二进制编码进行染色体编码。

(3)选择函数。一定数量的个体形成父代种群,从中筛选出优秀的个体进行交叉变异,形成新的子代种群,因此需要设立选择函数。锦标赛选择法(tournament selection)每次从种群中取出一定数量个体,然后选择其中适应度最高的个体进入子代种群,重复该操作直到新的种群规模达到原来的种群规模,如图3 所示。锦标赛选择法非常适用于多目标遗传算法,可以快速筛选出适应度高的个体,作为新一代的父体继续遗传,以便目标函数快速收敛。

图3 锦标赛选择法

(4)交叉函数。遗传算法通过交叉来维持种群的多样性,使得适应度函数快速收敛。两点交叉法(two-points crossover)是指在2 条染色体中随机设置了2 个交叉点,然后再进行部分基因交换,从而得到2 个不同的子染色体。两点交叉相比于单点交叉有更快的收敛速度和更高的多样性,相比多点交叉又不易对染色体造成破坏,适用于本文研究的模型。

(5)变异是遗传算法中非常重要的一个环节,通过随机选择某个子染色体上的一点或一段进行变异从而得到新的个体,有利于扩大遗传算法的搜索范围,跳出局部最优解。在进行变异算子设置时,需要确定变异概率,变异概率过小不利于跳出局部最优解,变异概率过大又容易破坏优良基因,不利于函数快速收敛。本文选用自适应变异函数(adaptive feasible)进行遗传变异,其变异过程可控性高,根据个体适应度动态调整变异概率[17]。

(6)约束函数。约束函数由回收模型中的规则所产生,主要包含线性等式、线性不等式、非线性等式、非线性不等式以及整数约束。当随机生成初代种群或子染色体发生交叉和变异时,均需要使用约束条件来验证遗传迭代的可行性。需要注意的是,约束函数会增加算法的复杂性,影响求解速度,因此约束函数不宜设置过多。

(7)终止条件。当遗传算法迭代到一定的次数,触发终止条件,即可输出最终结果。常用的终止条件有3 种。1)最大代数限制:当遗传算法迭代次数达到最大代数时,算法停止循环;2)函数容差:随着迭代进行,当种群适应度的变化值小于函数容差时,一般认为达到了最优解,则算法停止;3)运行时间限制:对于复杂的遗传算法,通过限制其最大运行时间来得到有效时间内的最优解。

2 算例分析

2.1 数据来源

为了验证上述求解方法的可行性,同时进行更深入的分析,本文利用Matlab 软件对上述模型进行算例分析。本文以某再制造企业的某款无级变速箱(continuosly variable transmission,CVT)再制造为案例,探究最佳的回收策略以及各个变量对结果的影响。其部分再制造参数如表3 所示,由于涉及商业机密,本文设立的所有参数均为实地考察后得到的合理范围或均值,并不代表企业的生产经营现状。

表3 某款CVT 变速箱的再制造参数

根据已有数据,结合部分参考文献,取再制造商的相关参数:Cn=8 000,α=0.5,B=1 000;取平台的相关参数:A=B/2=500,CL=5 000 000。

2.2 纳什均衡

纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是指一组博弈者在给定各自策略空间时,以期望效用最大化为目的进行策略选择,最终基于全部博弈者的策略实现一组结果的过程。

在表2 中已得到回收模型的Nash 均衡,现以再制品的单位成本Cr为自变量,验证纳什均衡的可行性,得到a、b、c和F的值:a<0,b<0,c>0,F≤E,满足求解约束条件。

再制造商的主要定价决策:

据此得到模型的纳什均衡如图4 所示,分析可知:生产商、销售商和回收平台的利润Zk以及回收率τ,都随着再制造成本Cr增加而单调递减,符合经济规律。在Cr=1 500 时,利润函数和回收率取到最大值ZM=18 284 157、ZR=9 061 294、ZT=142 253,此时闭环供应链各参与方的主要决策ω=13 568,P=16 501,τ=0.168 7。

图4 纳什均衡(数值解)

2.3 帕累托最优

帕累托(Pareto)最优是多目标进化算法中的一种最优解,其本质是资源分配的一种理想状态。在多目标博弈模型中,如果任何一方参与者都无法在不损害他人利益的前提下优化自己的利益,称之达到了帕累托最优。在复杂的模型求解问题中,帕累托最优往往是一组解集。

本文在Matlab 中使用多目标遗传算法对回收模型进行求解,其算法设置如下。

(1)遗传算法适应度函数即为生产商、销售商和平台的利润函数,由于遗传算法通常求解最小值,需要将利润函数转化为负值;

(2)自变量为闭环供应链参与者的主要决策,分别是新产品批发价ω、新产品零售价P和废件回收率τ;

(3)选择函数使用锦标赛选择法(tournament selection);

(4)交叉函数选用两点交叉法(two-points crossover),交叉比例为0.600;

(5)变异函数使用自适应突变函数(adaptive feasible),初始变异概率为0.080;

(6)设置种群大小600,最大代数500,帕累托集比例0.050,约束容差和函数容差均为0.001;

(7)为防止出现市场恶性竞争,添加线性约束P≥1.2ω,且P和ω均为正整数;

(8)考虑到激励补贴存在上限E,添加非线性约束:

F为再制造商实际得到的激励补贴。

(9)再制造成本Cr=1 500,其他参数均不变,以便与纳什均衡作比较。

据此得到模型的帕累托前沿如图5 所示,是一组空间为30 的最优解集,收敛为一个空间曲面,现从中筛选出最适合本模型的帕累托最优。

图5 帕累托前沿(数值解)

令Z=ZM+ZR+ZT,代表整个逆向供应链的总利润,从中筛选出10 组总利润Z最高的帕累托最优解,如表4 所示。

表4 10 组帕累托最优和对应的目标函数值

策略1~10 中,闭环供应链的总利润Z基本相同,但不同策略下的利益分配导致ZM、ZR和ZT有较大的变化。其中,生产商想获得最大利润应选策略9;零售商想获得最大利润则选择策略1;平台想获得最大收益则对应策略10。在本文研究的回收模型中,生产商处于主导地位,故选择策略9 作为本模型的帕累托最优。

3 仿真结果与讨论

结论1逆向归纳法可以得到逻辑性较强的函数解,但推导过程复杂,不适用于复杂的回收模型;遗传算法只能得到数值解,更偏向于实际应用,可以高效地解决复杂的工程问题。逆向归纳法求解的纳什均衡受到规则和制度的约束,代表了各参与者独立的决策行为,其结果是趋于稳定的;而遗传算法求解下的帕累托最优摆脱了函数求导与连续性的约束,将一个动态的博弈模型转化为静态的资源配置过程,通过一次次迭代收敛目标函数,得到带有一定随机性的近似最优解。

结论2在本文构建的回收模型中,使用多目标遗传算法求解的帕累托最优解优于使用逆向归纳法求解的纳什均衡,得到了更优的回收策略。如表5所示,取再制造成本为1 500 元,对比2 种算法在模型求解结果中的表现。相较于逆向归纳法,多目标遗传算法求解结果中的生产商的利润ZM提升了约7.9%;零售商的收益ZR提升约2.7%;第三方平台的利润ZT提升约21.3%;回收率τ从0.168 7 提升至0.180 0;对消费者而言,新产品和再制品的售价P降低了1.9%,因此总销量D提升了10.2%。

表5 帕累托最优解和纳什均衡对比

结论3激励政策在帕累托最优中发挥更好的激励作用。逆向归纳法求解结果中τ=0.168 7,D=3374,此时再制造商的利润函数中得到的激励补贴F=K(τ-τ0)D=2.318 ×105;而在多目标遗传算法求解的帕累托最优中,τ=0.180 0,D=3 718,此时激励补贴F=K(τ-τ0)D=2.974 ×105。国家为了激励再制造商进行废件回收和再制造生产所设立的补贴上限E=5 ×105,说明激励机制在帕累托最优中起到了更好的激励作用,有效提高了废件回收率和再制品的产量。

结论4多目标遗传算法的随机性是不可消除的,但本文通过合理的算法设置极大地提高了其收敛性,降低了随机性。如图6 所示为遗传算法迭代过程中帕累托散布图,其数值越大则代表离散性越强。本文在遗传算法求解过程中通过添加约束、改变遗传操作等方式提高了帕累托前沿的收敛性,随着遗传迭代次数的增加,帕累托平均散布逐渐减小至0.06 左右。

图6 遗传迭代过程中的帕累托平均散布图

结论5零售商和生产商的利益基本呈负相关;回收平台的利益基本保持不变。取筛选后的10组帕累托最优,即表4 中的数据,使用多项式拟合函数(polyfit)拟合成ZM、ZR和ZT的二维图像,如图7所示。从图中可以看出,随着生产商的利润增加,零售商利益减少,而平台利润变化范围较小,趋于稳定。

图7 企业利润曲线

结论6平台进行回收活动时,回收成本I制约了回收率τ的增长,根据假设5,I=CLτ2,列出纳什均衡和帕累托最优中的回收成本占比(回收成本/利润)如表6 所示。

表6 回收成本占比

在2 种求解结果中,平台的回收成本均与净利润持平,接近总收入的1/2,回收方选择较低的回收率以控制成本。根据结论3 可知,适当的激励政策将有效提高平台运营者回收意愿,有助于改变我国废旧汽车零部件的回收现状。

4 结论

本文建立了一个由第三方平台回收的废旧汽车零部件再制造闭环供应链模型,分别使用逆向归纳法和多目标遗传算法求解该模型,并以废旧CVT 系列变速箱为例,验证和比较了2 种算法的可行性和优劣性,从而建立了高效的回收优化模型。本文的主要研究结果如下。

(1)在本文假设的回收模型中,逆向归纳法可以求解得到稳定的函数解,但其求解过程复杂,限制性较大;遗传算法求解速度快,不受规则约束,但只能得到随机的近似数值解,其离散分布概率约为6%。

(2)相较于逆向归纳法,遗传算法求解得到了更优的回收策略,其生产商的利润提升了约7.9%;零售商的收益提升约2.7%;第三方平台的利润提升约21.3%,回收率由0.168 7 提升至0.180 0;对消费者而言,新产品和再制品的售价降低了1.9%,因此总销量提升了10.2%。

(3)激励机制在遗传算法中可以起到更强的激励作用,帕累托最优中再制造商每年得到的激励补贴增加约28.3%,回收率和再制品产量也随之提升。

猜你喜欢
闭环逆向适应度
改进的自适应复制、交叉和突变遗传算法
逆向而行
单周期控制下双输入Buck变换器闭环系统设计
双闭环模糊控制在石化废水处理中的研究
基于空调导风板成型工艺的Kriging模型适应度研究
最优价格与回收努力激励的闭环供应链协调
一种基于全闭环实时数字物理仿真的次同步振荡阻尼控制
逆向工程技术及应用
少数民族大学生文化适应度调查
自适应遗传算法的改进与应用*