基于强化学习的化学发光免疫分析仪温度控制策略研究

2024-05-06 11:13李中伟乔美英王聪
科技创新与应用 2024年13期
关键词:强化学习温度控制

李中伟 乔美英 王聪

第一作者简介:李中伟(1991-),男,硕士研究生。研究方向为信息处理与网络控制、电子电路设计。

DOI:10.19981/j.CN23-1581/G3.2024.13.010

摘  要:传统PID控制作为最常用的控制算法,在全自动化学发光免疫分析仪的温度控制单元上有着广泛的应用,但存在PID控制参数整定困难,调节时间长和超调量较大等问题,如何在保证温度控制精度的情况下,缩短温度调节时间,减小超调量,进一步提升仪器的检验效率,成为需要解决的问题。针对此问题,应用基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的温度控制策略,可以避免依靠人工经验进行PID参数整定,并缩短温度调节时间,大幅度减小超调量,通过仿真实验分析温度控制的参数指标。结果表明,该算法相较于传统的PID控制和模糊PID控制策略,在调节时间上分别提升14.9%和6.3%,在超调量上分别提升99.8%和99.2%,对于提升仪器的性能有较大意义。

关键词:发光免疫分析仪;温度控制;PID;DDPG;强化学习

中图分类号:TP273      文献标志码:A          文章编号:2095-2945(2024)13-0039-05

Abstract: Traditional PID control, as the most commonly used control algorithm, has a wide range of applications in the temperature control unit of fully automatic chemiluminescence immunoassay analyzer. However, there are problems such as difficulty in tuning PID control parameters, long adjustment time, and large overshoot. How to shorten temperature adjustment time, reduce overshoot, and further improve instrument inspection efficiency while ensuring temperature control accuracy has become a problem that needs to be solved, To address this issue, a temperature control algorithm based on Deep Deterministic Policy Gradient (DDPG) is applied, which can avoid relying on manual experience for PID parameter tuning, shorten temperature adjustment time, and significantly reduce overshoot. By analyzing the parameter indicators of temperature control through simulation experiments, the results show that this algorithm is superior to traditional PID control and fuzzy PID control algorithms, In terms of adjustment time, it has increased by 14.9% and 6.3% respectively, and in terms of overshoot, it has increased by 99.8% and 99.2% respectively, which is of great significance for improving the performance of the instrument.

Keywords: luminescent immunoassay analyzer; temperature control; PID; DDPG; reinforcement learning

隨着医学检验技术的快速发展,全自动化学发光免疫分析仪作为一种高性能的医疗设备,已经广泛应用于医学检验中,为各种疾病的诊断提供强有力的依据[1]。温度控制系统作为全自动化学发光免疫分析仪最重要的子系统之一,其精确的温度控制能够为样本和试剂的反应过程提供适宜的温度环境,使得化学反应更加充分,从而为获得可靠的检验数据提供保障[2]。温度控制的参数是决定温度控制系统性能的重要影响因素,对于温度控制系统,较多采用传统的比例-积分-微分(PID)控制策略,但是由于其参数调整复杂、对调试人员的要求较高,且调试后的温度曲线具有较大的超调量,因此,该策略往往难以获得较好的控制性能。为了克服这些不足,当前已经有众多学者对全自动化学发光仪上的温控PID参数进行了研究,卢雷[3]讨论了基于PID线性控温法,实现了对电化学发光免疫分析仪中的光电倍增管温度的精确控制,但是使用试凑法进行参数整定时,调试过程需要依靠人工经验才能调试出合适的PID参数。任浩[4]针对传统PID控制在孵育箱系统进行温度控制时,出现的控温精度不高的问题,对PID控制进行了研究,并改进设计了一种变模糊论域的模糊PID控制方法,该方法虽然提高了恒温控制精度,但是需要依靠经验制定模糊规则才能达到最优的控制性能。

本文以全自动化学发光免疫分析仪的温育盘加热控制系统为例,构建其数学模型,探讨了深度确定性策略梯度(DDPG)算法在温育盘加热控制系统策略优化方面的应用,同时也构造出马尔可夫决策过程 (Markov Decision Process, MDP)模型,并通过仿真实验验证了DDPG算法的有效性,根据超调量、上升时间和调节时间等性能指标,对算法的改进效果进行了分析。

1  温度控制系统数学模型的建立

全自动化学发光免疫分析仪通过高度集成的自动化流程,结合化学发光技术和免疫分析的原理,实现了对生物样本中特定抗原或抗体的高灵敏度和高精确度检测,其系统组成主要包括样本处理系统、试剂管理系统、温度控制系统和发光检测系统等。其中,温度控制系统分为温育盘加热控制系统、底物针加热控制系统、反应盘加热控制系统和试剂盘制冷控制系统。

本文以温育盘加热控制系统为研究对象并建立数学模型,该系统具有自平衡能力,其数学模型可以用一阶纯滞后环节来描述,所以,温育盘加热控制系统的传递函数为

G(s)=■,(1)

式中:K,t0和τ分别为被控对象的静态增益、纯滞后时间常数和惯性时间常数[5]。

在工程上,对被控对象施加阶跃信号是一种常用的系统响应分析方法,观察被控对象在阶跃信号作用下的变化过程,记录数据并绘制出系统的时间响应曲线[6],可以根据响应曲线,结合科恩-库恩(Cohen-Coon)[7]经验公式计算出传递函数中的参数K,t0和τ。

按照上述方法,为了实验能够顺利进行,本文选用三线制PT1000作为温度传感器,设计了微处理器和数字温度测量芯片相结合的高精度温度采集电路。将温度传感器安装在温育盘模块上,在测试过程中给定输入阶跃信号为50 ℃,通过温度采集电路不断获取温度值,每隔30 s记录一次温度变化数据,得到的结果见表1。

根据记录的温度数据,绘制温育盘模块的阶跃响应曲线,如图1所示。

根据科恩-库恩经验公式,如式(2)—式(4)所示

K=■,(2)

t0=1.5(t0.632-t0.28),(3)

τ=1.5(t0.28-t0.632/3),(4)

式中:?驻M为温度控制系统的阶跃输入;?驻C为温度控制系统的输出响应;t0.28为阶跃响应曲线在0.28?驻C时的时间,s;t0.632为阶跃响应曲线在0.632?驻C时的时间,s。

给定输入阶跃信号为50 ℃,即?驻M=50,?驻C=25,根据响应曲线可以得到t0.28=157 s,t0.632=269 s,从而求得K=?驻C/?驻M=0.5,t0=168 s,τ=101 s,由此,通过计算可以得到温育盘加热控制系统的传递函数为

G(s)=■。(5)

表1  温度采集数据

图1  温育盘模块的阶跃响应曲线

2  基于DDPG的温度智能优化控制

2.1  马尔科夫决策过程

强化学习(Reinforcement Learning,RL)作为机器学习的一个重要子领域,近年来在众多领域得到了广泛的应用,如图2所示,强化学习由2部分组成,即智能体和环境。在进行强化学习的过程中,智能体与环境一直处于交互状态,智能体不断地在环境中获取状态,并执行相应的动作,然后根据选择动作的结果,从环境中获得奖励或者惩罚,智能体的目的就是尽可能多地从环境中获取奖励[8]。

图2  强化学习示意图

马尔科夫决策过程是一种数学框架,广泛应用于强化学习和动态规划等领域,用于描述在随机环境中进行决策的问题,该过程可以用一个四元组{S,A,P,R}描述[9],其中S是一个有限的状态空间集合;A是智能体Agent在每个状态下选择的动作空间集合;P是智能体在当前状态s下采取动作a后,转移到下一个状态st+1的概率;R是在状态s时执行动作a,并达到下一个状态st+1时所能得到的及时奖励,该奖励能够指导智能体学习最优策略。

2.2  DDPG算法

强化学习领域的算法主要包括Q学习算法、Deep Q-Network(DQN)算法、Actor-Critic算法和DDPG算法等。DQN算法是将神经网络与强化学习相结合,主要用于解决离散动作空间的任务[10]。为了在连续控制问题上有更好的效果,在2016年,DeepMind团队提出了一种基于深度确定性策略梯度的算法,即DDPG强化学习算法[11]。

DDPG算法的结构框图如图3所示,它是基于Actor-Critic架构的一种强化学习算法,该结构由价值网络Critic和策略网络Actor组成。Critic网络根据值函数,向最小化损失函数的方向进行更新,调整其神经网络的结构参数θQ,以此来实现目标总收益的最大化。Actor网络基于策略梯度的方式向奖励最大的方向进行更新,调整其神经网络的结构参数θμ,选择需要执行的动作[12]。

根据损失函数更新Critic网络,损失函数变化如下

L=■∑i(yi-Q(si,ai│θQ))2, (6)

式中:yi=ri+γQ′(si+1,μ′(st+1│θμ′)|θQ′),Q(si,ai│θQ)為Q(si,ai)的估计值。

根据策略梯度更新Actor网络

?荦θμJ≈■∑i?荦aQ(s,a│θQ)|■·?荦θμμ(s|θμ)|■。(7)

为了避免参数更新较快,且目标值也在不断更新,造成学习过程不稳定的情况,在DDPG算法中建立了Actor目标网络和Critic目标网络。因此,DDPG算法包含4种神经网络,即Actor网络、Actor目标网络、Critic网络和Critic目标网络[13]。Actor目标网络的神经网络参数为θμ′,Critic目标网络的神经网络参数为θQ′,采用更新幅度较小的软更新方式,如式(8)和式(9),能够确保学习的稳定性。

θQ′←ωθQ+(1-ω)θQ′,(8)

θμ′←ωθμ+(1-ω)θμ′,(9)

根据历史经验,一般取ω为0.001。

在强化学习中,智能体与环境交互产生的数据,在连续时间上的经验往往高度相关,容易影响长期学习效果,DDPG算法借鉴了DQN算法中经验回放的方法,来打破训练数据的相关性问题。将智能体与环境交互产生的经验数据样本存储到经验池中,然后抽取批量样本数据进行训练,减少了数据之间的相关性,增加了算法的稳定性[14]。

为了克服在连续行为空间学习的过程中, 避免陷入局部最优解的问题,提高智能体的探索性,DDPG算法给动作添加一个噪声Nt,其表达式如式(10)所示

at=μ(s│θμ)+Nt。(10)

2.3  基于DDPG的温育盘温度优化控制策略

用DDPG算法进行全自动化学发光免疫分析仪的温育盘加热控制系统控制策略优化时,要建立MDP模型,根据本文所研究的内容,温育盘加热控制系统的MDP模型参数如下。

1)状态空间。环境状态描述了在任意时刻智能体在环境中的位置信息,对要执行的动作有很重要的意义,考虑到温度传感器的读数是反映分析仪当前温度状态的直接指标,本文设置的状态空间参数为时间、温育盘的实时温度和目标温度。

2)动作空间。DDPG算法在处理连续动作空间问题时,具有较好的效果,智能体根据环境状态反馈的信息,执行相应的动作。动作空间的设计之间关联到温育盘加热控制系统的调控能力,本文选取加热装置的打开和关闭,以及实时功率的调整为智能体的动作。

3)转移概率。在本文研究的强化学习问题中,转移概率P是无法确定的,因此,本文采用采样的方法对P进行无偏估计。

4)奖励函数。在基于DDPG算法的温育盘温控控制策略的研究中,奖励函数的设计是实现DDPG算法实现有效学习的关键之一,直接关系到智能体的学习方向和速度。在溫度控制系统中,目标温度与当前温度的差值,即误差e(t),其大小是衡量控制性能的一个重要指标,引入误差作为奖励函数的一部分,能够激励智能体更加注重对大偏差的校正。系统的稳定性也是奖励函数考虑的重要因素,本文采用温度误差变化率作为奖励函数的另一组成部分,以鼓励智能体采取平滑的控制策略。由此,本文将奖励函数定义为

Rt=α1r1(t)+α2r2(t),            (11)

式中:α1和α2分别是误差和误差变化率的权重系数,r1(t)和r2(t)分别为误差和误差变化率变化的表达式,如式(12)和式(13)所示

r1(t)=0,|e(t)|≤ε1,其他,(12)

r2(t)=0,|e(t)|≤e(t-1)1,其他 ,(13)

式中:ε为允许的误差变化范围。

3  仿真分析

为了验证DDPG算法的有效性,本文利用Matlab/Simulink,将传统PID控制、模糊PID控制及DDPG算法对所建立的模型进行对比仿真。

在传统PID控制进行仿真时,将温度误差进行相应的比例、积分和微分计算,得到PID控制器的输出量,将其作用在温育盘加热控制系统的传递函数上,获得最终的输出结果。通过经验,调节比例参数Kp为1.3、调节积分参数Ki为0.01和调节微分参数Kd为0.7,温育盘加热控制系统达到目标温度。

模糊PID控制是将模糊控制理论与传统PID控制相结合的一种控制策略,仿真时,通过制定模糊规则,以误差和误差的变化率为输入进行模糊推理,利用模糊规则对PID参数进行修正,将修正后的PID参数经过计算后作用于温育盘加热控制系统的传递函数,最终实现温育盘加热控制系统达到目标温度。

DDPG算法通过经验回放和智能体不断地根据奖励函数进行自主学习,执行相应的动作,实现温育盘加热控制系统达到目标温度。DDPG算法的主要参数设置见表2。

表2  DDPG算法的网络参数

其中,在网络参数调节过程中,选择较大的学习率参数时,容易造成学习速度较快,对系统的稳定性有较大的影响,系统不容易收敛,因此选取0.001作为Actor网络和Critic网络的学习率;折扣因子作为对未来奖励的重视程度,选择不合适时会对温度的预测带来影响,经过调试,本文的折扣因子选为0.5。

图4给出了将目标温度设定在37 ℃时,传统PID控制、模糊PID控制以及DDPG算法作用在温育盘加热控制系统上,单位阶跃输入指令控制的响应曲线。在图4中,传统PID、模糊PID和DDPG分别表示不同算法控制下的温育盘加热控制系统响应曲线。

图4  仿真结果

从测试数据来看,3种控制策略均能够将目标温度控制在±0.1 ℃的范围内,考虑到超调量、上升时间和调节时间是分析温度控制系统性能的重要指标,本文以此分析了这3种控制策略所对应的性能指标,见表3。

表3  3种控制算法的性能指标

由表3可知,基于DDPG算法的温育盘加热控制系统,虽然在上升时间上与模糊PID以及传统PID控制策略上有差异,但是具有更快的调节时间且几乎没有出现超调,相较于传统PID控制算法,DDPG控制算法在超调量上提升了99.8%,在调节时间上提升了14.9%;相较于模糊PID控制算法,DDPG算法在超调量上提升了99.2%,调节时间上提升了6.3%,具有明显的优越性。

4  结束语

针对传统PID控制算法在全自动化学发光免疫分析仪的温度控制系统应用过程中,存在调节时间长,超调量大,并且在进行PID参数调节时,需要一定的人工经验等问题,本文提出了基于深度确定性策略梯度的温度控制算法,并结合全自动化学发光免疫分析仪上的温育盘加热控制系统,建立系统传递函数,进行仿真验证。实验结果表明,基于深度确定性策略的温度控制算法,在调节时间和超调量上,有明显的提升,验证了其有效性,对于进一步提升仪器的温控性能,具有较大意义。

参考文献:

[1] 农天雷,林敏.全自动化学发光免疫分析仪临床应用质量控制探讨[J].中外医学研究,2011,9(21):187-188.

[2] 姚继承,丛海燕,刘鹏,等.AutolumiS 3000型化学发光分析仪温度控制系统的结构和功能分析[J].实用检验医师杂志,2019,11(3):183-185.

[3] 卢雷.某型化学发光免疫分析仪的恒温控制系统设计及实现[D].西安:西安电子科技大学,2014.

[4] 任浩.全自动化学发光免疫分析仪的恒温孵育箱设计与实现[D].重庆:重庆大学,2018.

[5] 许玉忠.基于自适应模糊PID控制的电阻炉温度控制系统[J].华北水利水电学院学报,2011,32(2):83-86.

[6] 李瑾.基于STM32的围术期病员加温系统的设计[D].镇江:江苏大学,2022.

[7] 郝朝会,孙传祝,苏夏侃.自适应模糊PID控制在茶叶杀青机中的应用[J].农机化研究,2013,35(2):201-204.

[8] 王琦,杨毅远,江季.Easy RL:强化学习教程[M].北京:人民邮电出版社,2022.

[9] 周鑫,陈建平,傅启明.基于DDPG模型的建筑能耗控制方法[J].计算机应用与软件,2023,40(2):40-47.

[10] 朱永红,段明明,杨荣杰.基于深度确定性策略梯度的陶瓷梭式窑温度智能优化控制[J].陶瓷学报,2023,44(2):337-344.

[11] PAUL L T, JAMES H J, DAVID S, et al. Continuous control with deep reinforcement learning[J].2018.

[12] 万典典,刘智伟,陈语,等.基于DDPG算法的冰蓄冷空调系统运行策略优化[J].控制工程,2022,29(3):441-446.

[13] LIU Y C, HUANG C Y. DDPG-Based Adaptive Robust Tracking Control for Aerial Manipulators With Decoupling Approach[J].IEEE Transactions on Cybernetics, 2021(99):1-14.

[14] 趙子瑞,陶庆,杨涛,等.基于DDPG的下肢康复机器人轨迹跟踪控制[J].机床与液压,2023,51(11):13-19.

猜你喜欢
强化学习温度控制
船舶主机温度控制方法优化
基于强化学习的在线订单配送时隙运能分配
论“以读促写”在初中英语写作教学中的应用
锻造温度控制
智能交通车流自动导引系统
分布式系统中基于非合作博弈的调度算法
基于模糊控制的PLC在温度控制中的应用
三菱PLC在电加热与温度控制中的应用