基于DDQN的燃料电池混动车辆能量管理策略研究①

2024-01-06 15:03叶国云张兆显陈凤祥仝光耀
关键词:输出功率燃料电池管理策略

叶国云, 张兆显, 陈凤祥, 仝光耀

(1.宁波如意股份有限公司,浙江 宁波 315000;2.同济大学汽车学院,上海 201804)

0 引 言

在目前的研究和应用中,因为燃料电池技术限制,燃料电池汽车通常以多个能量源作为输出,如何使多个能量源构成的混合动力系统高效、可靠、稳定工作是燃料电池汽车的关键技术,将直接影响到整车性能好坏[1]。鉴于此,针对燃料电池混合动力公交车的能量管理策略的研究具有很强的意义。目前国内外关于能量管理策略的研究主要集中于基于规则的策略和基于优化的策略两类[2]。基于规则的策略往往是根据工程师经验,针对不同的运行条件和工况来设计规则对功率进行分配,其优点是简单易实现,因此在实际工程中得到了广泛应用,但在面对复杂工况时适应性差,难以实现全局最优或近似最优的控制[3]。基于优化的策略可以在保证功率合理分配的同时,实现目标的最优或近似最优控制,国内外学者对基于优化的能量管理策略进行了广泛深入的研究。典型的基于优化的方法包括:动态规划(DP)[4][5]、凸优化[6]、庞特里亚金极大值原理(PMP)[7][8]、等效燃料消耗最小策略(ECMS)[9][10]、模型预测控制(MPC)[11][12]等。目前基于规则与基于优化的策略研究已相对成熟,而强化学习的思想方法作为当下研究与应用的新方向和新热点,仍有许多值得探索和优化的地方。

1 燃料电池混合动力公交车模型

所研究的某款燃料电池混合动力公交车的主要参数和构型如表1所示。

表1 某款燃料电池混合动力公交车参数

1.1 车辆动力学模型

根据参考文献[13],在行驶过程中车辆受到的牵引力与滚动阻力Ftraction、坡度阻力Froll、空气阻力Fgrade及加速阻力Finertia作用,其平衡方程式为式(1):

Ftraction=Froll+Fgrade+Fair+Finertia

(1)

式(1)中:

(2)

式(2)中,θ为行驶坡度角(rad);ρair为空气密度,取1.2258kg/m3;δ为汽车旋转质量换算系数。

1.2 燃料电池系统模型

针对能量管理问题,选择基于实验数据静态模型建模方法,拟合燃料电池的输出特性曲线,建立燃料电池系统模型,其输出特性如图1所示。

图1 燃料电池系统极化曲线与功率曲线图

1.3 动力电池系统模型

在电池放电过程(Prequest>0),如果需求功率在电池最大输出功率范围内,此时输出功率等于需求功率,即PSUPPLY=PREQUEST,瞬时电流、瞬时电压与充电过程(Prequest>0)计算方法相同,计算公式可以表示为式(3),式(4):

(3)

V=Voc-RintI

(4)

式(3),式(4)中,I表示瞬时电流;Voc表示开路电压;Rint表示电源内阻;C表示库伦效率;Prequest表示电池端需求功率。

另一方面,在电池放电过程当需求功率大于电池最大输出功率,此时电池输出功率无法满足动力系统功率需求,即PSUPPLY

V=Voc-RintImax

(5)

基于以上计算结果,Rint模型的动力电池SOC计算可得到式(6):

(6)

式(6)中,Q0=SOC0·Cmax表示初始电池容量,由初始电池电荷状态SOC0和最大电池容量Cmax决定。

1.4 驱动电机系统模型

基于电机效率MAP图对驱动电机进行建模,以车速及车辆需求转矩为输入,输出电机需求功率。根据输入条件车速u,车辆需求转矩Twheel,计算得到驱动电机转速wmotor和需求转矩Tmotor,计算公式如式(7):

(7)

式(7)中,itrans为主减速比;ηtrans为传动系统传动效率。主减速比根据电机转速与车辆速度范围进行参数匹配,传动系统效率忽略外界条件引起的波动取其平均值。

根据电机转矩Tmotor,电机转速wmotor,查表得到电机该工作点的效率,即ηmotor=f(Tmotor,wmotor)。由公式(8)计算得到电机需求功率,其中当电机转矩Tmotor小于0时,进行制动能量回收:

(8)

2 燃料电池混合动力公交车能耗分析

从整体能耗出发,结合车辆行驶的动能Edyn与制动过程回收能量Erec,总能量EH2满足式(9):

EH2=Edyn-Erec+Eloss

(9)

式(9)中Eloss为能量传递过程的所有能量损失。对于能量管理问题,在整车各参数不变情况下,驱动能量Edyn与制动能量Ebrk仅视工况而定,因此,降低氢气能耗完全依赖于对能量传递过程各效率的优化,关键影响因素包括燃料电池系统效率、动力电池系统效率、电机系统效率、传动效率、再生制动效率等。

3 基于深度强化学习的燃料电池混合动力公交车能量管理策略

DDQN(Double Deep Q-Network)[14]方法是DQN(Deep Q-Network)算法的改进版,通过两个神经网络使目标Q值动作的选择和目标Q值计算进行解耦,有效降低了算法过拟合问题,同时加快了训练的收敛速度。结合强化学习训练特性定义三个状态维度作为神经网络的输入,其中包括电池SOC、电机需求功率Pmotor和当前车速u。另外,在输入神经网络前,各维度状态变量都做了归一化处理。在燃料经济性目标基础上同时考虑到对动力电池工作区间限制,控制变量如表2所示,同时强化学习奖罚函数定义为式(10):

(10)

表2 DDQN状态变量与控制变量表

(11)

最小样本集采样来源两部分,一部分与传统方法相同,来自智能体与环境交互数据,另一部分来自专家经验集,专家经验由全局最优的动态规划算法得到。该方法一方面融合了专家信息进行训练,提高了智能体探索效率和学习速度,抑制了训练结果陷入局部最优的趋势,另一方面保证了智能体对环境的探索能力,防止对专家数据的过拟合,既提高了学习的收敛性,又保证了算法的探索需求,最终所提出的能量管理策略架构如图2所示。

图2 DDQN能量管理策略架构

4 仿真结果

基于对上述能量管理策略进行仿真试验分析,参考GB/T 35178-2017,应用如图3 所示“中国典型城市公交工况”进行深度学习训练,累计奖励曲线如图4所示,训练设置了500幕循环,滤波后的累计奖励曲线可以看出最终累计奖励最终收敛到最高点。

图3 中国典型城市公交循环工况曲线

图4 训练过程每幕累计奖励曲线

4.1 燃油经济性分析

研究将基于DDQN与基于规则及动态规划另外两种常规能量管理策略下的燃料电池系统输出功率和工作区间分布进行对比,从统计结果可以看出,DDQN主要工作区间集中在60kW以下高效率区间,其中60kW以下工作点占比99.24%。相比之下,动态规划主要工作区间在60kW以下工作点占比98.9%,DDQN与动态规划两者怠速工况占比分别为50.65%及36.2%,远低于基于规则的77.15%,具体如图5和图6所示。

图5 三种能量管理策略下系统输出功率曲线

图6 三种能量管理策略下系统工作区间统计

图7 三种能量管理策略下动力电池功率输出曲线

图8 三种能量管理策略下动力电池SOC曲线

图7和图8可以看出在一个工况循环下,SOC从60%下降到57.65%,动态规划与基于规则的方法的SOC分别下降到55.36%和55.99%。比较三种方法等效燃料消耗可以发现,基于DDQN的等效耗氢量为313.16g,动态规划与基于规则方法等效耗氢量分别为311.45g与330.37g,与动态规划结果相比,深度强化学习方法达到了十分接近的结果,相差0.55%,相比基于规则的方法,训练后的DDQN燃料经济性提高了5.50%。

图9 燃料电池系统输出功率对比曲线

图10 燃料电池系统工作区间统计

图11 动力电池系统输出功率曲线

图12 电池SOC变化曲线

4.2 工况适应性分析

离线DDQN的基础上,针对新的测试工况(CHTC-B),继续进行训练更新并在线应用,训练后的经济性表现上进一步提升,如图9-图12绿色线所示,燃料电池系统输出更加倾向于在高效率区间工作,其中怠速功率以上到20kW高效区间从22.92%提升到32.85%,而40kW以上工作区间从5.65%下降到2.36%。更新后的DDQN策略燃料等效消耗为283.64g,相比离线DDQN提高了2.5%,更加接近动态规划的近似全局最优控制效果。

5 结 语

以燃料电池公交车为研究对象,根据燃料经济性为目标对能量管理策略展开基于DDQN的能量管理策略研究,提出了一种基于专家经验引导的优化方法。通过仿真试验,验证了强化学习方法在能量管理策略上的适用性,其燃料经济性表现接近动态规划方法,相比于传统方法,在训练工况下实现了5.5%的优化,同时基于DDQN的能量管理策略具有良好的工况适应性。

猜你喜欢
输出功率燃料电池管理策略
房建工程招标组织与合同管理策略
论减税降费背景下的企业财务管理策略
建筑工程管理策略探讨
建筑施工安全管理策略的应用探索
燃料电池题解法分析
试驾丰田氢燃料电池车“MIRAI未来”后的六个疑问?
燃料电池的维护与保养
适用于智能电网的任意波形输出功率源
基于双层BP神经网络的光伏电站输出功率预测
分布式发电系统并网逆变器输出功率的自适应控制