基于产线数据驱动建模的锂离子电池分容技术

2024-03-10 03:34冯雪松张晓琨
电源技术 2024年2期
关键词:产线特征参数锂离子

毛 宇,冯雪松,张晓琨,向 勇

(电子科技大学材料与能源学院,四川成都 611731)

近年来,随着电动汽车、储能电站等新兴场景迅速发展,锂离子电池市场规模快速增长,生产企业迫切需要提升产能[1]。典型的锂离子电池生产制造过程包括正负极材料制备、隔膜生产、电解液配制、电池组装、化成和分容等环节,具有生产环节多、复杂程度高和生产周期长的特点[2]。其中,电池分容是电池产品性能分级的重要过程,其目的是遴选内阻和容量一致性高的单体电池,保障电池成组后的服役可靠性。传统生产过程中,需在分容柜中按设定的程序进行电池充放电循环,最后根据测定容量进行分选,该过程不仅成本高,并且耗时长[3]。随着机器学习建模技术的快速发展,利用锂离子电池产线监测数据,建立电芯产品容量精准预测模型,有望简化甚至免除依赖充放电实验的分容环节,支撑锂离子电池生产企业提升产能。

机器学习算法具有快速寻找高维数据潜在关联关系的能力,已广泛应用于金融、电子商务、医疗、交通、制造等领域。近年来,基于机器学习算法的数据驱动建模,在锂离子电池关键材料性能预测和电芯剩余容量评估等方面也取得了长足进展[4-5]。Choy等基于168 组不同掺杂配方的锂离子电池三元NCM正极材料实验数据,采用6 种机器学习回归算法,研究了正极材料结构、掺杂元素特征与其初始放电容量和第50 次循环放电容量的相关性,并成功建立了掺杂元素特征与正极材料充放电性能的映射模型[6]。文献[7]采用围绕中心点的划分(PAM)聚类算法,以铅酸蓄电池使用过程中的外壳温度和充放电电压、电流为特征参数,设计了铅酸蓄电池剩余容量评估方法,并以300 个报废的铅酸蓄电池组的服役数据为样本验证了该技术有效性。在锂离子电池方面,文献[8]基于115 个电池的195 000 条数据,设计了一种非递归的条件时间卷积网络来预测锂离子电池性能的退化行为。该模型在测试集验证中,电芯容量平均预测误差小于最大可用容量的4%。尽管数据驱动的机器学习建模在锂离子电池关键材料和电源系统管理技术研发中已展示出巨大的潜力,但目前尚缺乏将其应用于锂离子电池产品分容的研究报道。

本文探索了基于产线数据驱动机器学习建模的锂离子电池分容技术。搜集了20 997 条标准容量为108 Ah 的锂离子电池生产数据,使用四种机器学习算法训练模型,对测试集的电池分容容量进行了预测。通过调优,所有机器学习模型容量预测结果的均方根误差均小于标准容量的0.35%。最佳模型预测结果的统计分析显示,分容容量的预测误差在540 mAh (0.5%)以内的电池样品占样品总数的比例达88.47%。该结果证明了数据驱动机器学习建模应用于锂电池产品分容的有效性。此外,通过分析预测结果较优的两个算法模型中各特征参数贡献度,揭示了影响模型分容容量判断的关键共性特征,有望支撑进一步优化锂电池生产过程,提高产品品质保障能力。

1 机器学习建模

1.1 数据集建立

数据集由20 997 条源自同一产线的锂离子电池生产数据组成。每条数据包括21 个特征参数,分别是A 卷芯质量、B 卷芯质量、总卷芯质量、第一次电解液注液量、第一次注液前质量、第一次注液后质量、三次化成温度的检测参数、三次化成截止电压的检测参数、第二次电解液注液量、第二次注液前质量、第二次注液后质量、两次开路电压(OCV)检测环节的电阻大小、两次OCV检测环节的电压大小、直流内阻(DCIR)和分容容量。以上特征参数的选择主要基于对锂离子电池性能机理的认识以及实际的生产条件,具有一定的完备性和较好的实用性。

1.2 模型训练

本文使用Python 编程语言和机器学习库(scikitlearn)进行模型搭建及训练。模型中使用20 个特征参数作为协变量对锂电池的分容容量进行预测。模型中的每个超参数都经过了反复调优来使模型达到最优的预测性能。这项工作中采用的四种机器学习算法包括随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)、XgBoost (eXtreme gradient boosting)和CatBoost (gradient boosting+categorical features)。训练集和测试集按3∶1 的比例从整个数据集中通过分层抽样的方式选取。测试集包括5 197 条锂电池生产数据。

1.3 模型评价与分析方法

通过计算模型对测试集预测结果的均方根误差(RMSE)和拟合度(R2)来评价模型的预测性能,计算方法如下:

式中:n是值的个数为监测数据为预测值;为测试集中监测数据的平均值。

模型分析可通过统计模型建立过程中各特征参数的贡献度来进行。特征参数贡献度的计算及排序结果可使用Python 中的SHAP 包中命令来得到。

2 结果与讨论

2.1 数据相关性

在机器学习建模之前,通过计算各特征参数与分容容量之间的皮尔森相关系数可以初步了解参数之间线性相关性的强弱。图1 展示了20 个特征参数与分容容量之间的皮尔森相关系数计算结果。横轴表示20 个特征参数,纵轴表示相关性大小。从计算结果来看,所有特征参数与分容容量之间的相关性系数的绝对值均低于0.6,表明其线性相关性均较弱。但是该相关性分析结果并不能直观地得出可靠的结论,具有一定的误导性。例如,化成环节、OVC测试和DCIR的数据在理论上与分容容量之间存在较为密切的联系,而图1 中这三类特征参数与分容容量之间的相关性系数绝对值均低于0.3。造成相关性系数较低的原因可能是这些参数与分容容量之间的关系是较复杂的非线性关系。卷芯质量与分容容量之间呈正相关性,并且具有较大的相关性系数,其原因是卷芯中活性物质的多少和电池容量之间关系的线性度较高。此外,根据一般认知,电解液注入量与电极活性物质容量发挥、电芯内阻大小有着较紧密的联系,是工业生产中十分重要的数据参量。然而,皮尔森相关性分析显示两次电解液注入量与分容容量的相关性均较弱。因此,主要针对线性关系的皮尔森相关性分析不能充分体现锂离子电池生产过程对电芯产品性能影响的复杂性。

图1 分容容量与20个特征参数之间的皮尔森相关性系数统计图

2.2 模型训练

针对皮尔森相关性分析的局限性,基于产线数据量充足的特点,使用生产过程中能够采集到的所有特征参数来进行机器学习建模。利用机器学习快速寻找高维数据关联性的能力,探究产线监测特征参量与分容容量之间的复杂非线性关系,并验证通过机器学习建模预测锂电池分容容量的有效性。研究中使用四种机器学习算法分别建立回归预测模型,并针对每个模型进行性能验证。表1 总结了锂离子电池分容容量预测的四种机器学习模型的五次交叉验证平均RMSE,测试集预测结果RMSE与R2的评价结果,对比了特征筛选前后模型预测性能。

表1 各模型的均方根误差和拟合度

四种算法模型的测试集预测结果的RMSE值均低于标准分容容量的0.35%,R2均大于0.55,五次交叉验证的平均RMSE的值均低于标准分容容量的0.39%,模型的性能初步满足产线电池生产的标准。其中,CatBoost 算法模型和RF 算法模型对分容容量的预测效果最佳,具有最高的拟合度,分别为0.620 6和0.618 6。此外,使用根据皮尔森相关性系数计算结果(皮尔森相关系数绝对值>0.2)筛选出的8 个特征所组成的参数集,所训练的四种机器学习模型对测试集的预测结果相比于未进行特征筛选时的预测结果较差,再次说明皮尔森相关性分析存在一定的误导性。在未来研究中,结合产线机理认识设计专用的算法模型更精确地提取产线监测特征参量与分容容量之间复杂的非线性关系,将是提高模型预测性能的关键。

在测试集验证中性能表现较优的RF 和CatBoost算法模型分容容量预测值和实验值关联的散点图如图2 所示。对应的R2和RMSE标注在图中,45°的红色直线代表了实验值的大小,图中每个点都代表了一个预测数据。针对5 197 条数据的预测结果大部分都接近于红色直线。对于本研究中给定的测试集,两种算法模型的评估结果非常接近。此外,图中能观察到部分预测点位于表示±0.5%误差的两条直线之外,这些预测误差较大的数据是影响RMSE和R2数值的关键。通过对最佳RF 模型和CatBoost 模型预测结果的统计分析,发现测试集中实际测定容量在108 Ah 以上的电池样品被正确判断为容量达到108 Ah 以上的概率分别为90.78%和89.86%,剩余约10%的产品可通过实验分容进一步测定容量。分容容量的预测误差在540 mAh(标准容量的0.5%)以内的电池样品占样品总数的比例分别为88.14%和88.47%。本研究建立的模型对于电芯容量是否高于108 Ah 的识别准确率基本能够满足产线应用进行产品质量保障的要求。然而,考虑到电芯分容容量的预测误差总和直接关系产线的经济效益,对电芯容量绝对值的预测精度仍有待提升。

图2 RF模型(a)和CatBoost模型(b)预测结果的散点图

2.3 模型分析

通过独立计算每个特征参数在模型计算过程中贡献度大小得出的shap 值能够体现特征参数对模型预测结果的影响程度。图3 展示了RF 和CatBoost 两种算法模型在对测试集预测效果达到最佳状态时,20 个特征参数shap 值的汇总结果。x轴表示每个数据对模型预测的影响大小,y轴按照各特征参数总体的贡献作用,进行了降序式排列,贡献作用越大的特征参数排序越靠上。

图3 20个特征参数对RF模型(a)和CatBoost模型(b)输出结果影响的shap值汇总图

首先,电芯质量相关数据在两类模型当中均占据重要地位。在图3(a)中的RF 模型的第二至第五个特征参数和图3(b)中CatBoost 模型的第二、第四至第六个特征参数均与电芯质量相关,且都展示出积极的正向影响。这一结果和皮尔森相关性分析结果基本一致。与皮尔森相关性分析结果不同的是,OCV测试数据在两个模型中均体现出较高贡献作用,最直观的结果是OCV2 电压(第二次OCV检测参数)在两个模型中的贡献度大小都排在第一位。DCIR同样显示出较突出的作用,在两个模型中分别被列为排序第七重要(RF 模型)和第三重要(CatBoost 模型)的特征。从结果来看,相比于RF 模型,化成温度、化成截止电压和DCIR三类参数在CatBoost 模型中表现出的影响力更强。根据一般性的科学认知和技术经验,较高的化成温度不仅有利于固体电解质界面(SEI)生成反应,而且有利于隔膜被电解液充分浸润;化成截止电压越高,电解液越不稳定,会有更多的活性锂被界面副反应消耗,导致锂电池充放电容量降低;DCIR小的电池不仅大电流放电能力强,实际容量发挥率也会更高。这些关键参数重要性的发挥可能是CatBoost 模型性能最佳的原因。机器学习模型分析的结果符合一般认知和经验,证明高效率的建模分析方法可辅助提高科研人员对电芯生产机理的认识水平,并再次印证了通过产线数据驱动机器学习建模实现锂离子电池分容容量精准预测的可行性。通过模型设计优化,深入挖掘特征参数与分容容量之间的非线性关系是进一步提高模型预测精度的关键。

3 结论

锂离子电池电芯的容量受各个生产环节综合影响。本文证明了使用数据驱动的机器学习算法,建立主要工艺环节监测数据与分容容量之间精准映射关系的可行性。所使用的参数数据都是在实际的锂电池生产线上采集的。基于2 万余条产线数据,采用四种不同的非线性机器学习算法进行了模型训练和测试。采用RF 和CatBoost 算法建立的模型表现出较好的容量预测性能,它们的拟合度分别为0.618 6和0.620 6。测试集验证结果统计显示,实际测量容量在108 Ah 以上的电池样品被正确判断为108 Ah 以上的概率最高达90.78%,预测误差在540 mAh(标准容量的0.5%)以内的电池样品占比最高达88.47%。此外,通过分析模型中各特征参数贡献度,发现了化成温度、化成截止电压、OCV和DCIR等参数与分容容量之间存在较为重要的关联性。未来研究中,结合已有的科学认知和生产经验,针对特征参数与分容容量之间非线性关系,进一步优化建模算法,提高容量预测精度,有望帮助生产企业提高产能、质量保障能力和经济效益。

猜你喜欢
产线特征参数锂离子
昆玉棒材轧制产线提速增效工艺改进措施
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
梅钢1780产线高速钢轧辊使用维护
高能锂离子电池的“前世”与“今生”
多品种小批量智能制造产线关键技术及应用探讨
宽厚板钢轧一体化智能制造示范产线推进实践
基于PSO-VMD的齿轮特征参数提取方法研究
统计特征参数及多分类SVM的局部放电类型识别
锂离子电池组不一致性及其弥补措施