隔室模型和深度学习模型对COVID-19的预测研究

2023-07-17 11:03刘树颖

中国新技术新产品 2023年8期

刘树颖

（福州大学梅努斯国际工程学院，福建福州 350108）

0 引言

新型冠状病毒的爆发对全球公共卫生造成了巨大的破坏性影响。通过构建隔室模型预测重要指标，例如感染病例、解释疫情的动态变化和爆发机制，使卫生保健系统能及时采取有效措施应对相关问题。

新冠肺炎（COVID-19）疾病符合流行病在不同隔室的物理传播机制。彭源源[1]定性分析了多种传染病模型在COVID-19 的应用。考虑政府可能采取管控措施，例如封锁政策，各学者对模型进行优化。刘拥民等[2]使用Elman神经网络预测COVID-19 的传播特性，以了解疫情的关键节点。

基于上述分析，该文结合隔室模型的可解释性和神经网络的准确性，考虑疫苗对疫情的影响，增加疫苗接种隔室，以优化隔室模型，将基础的SEIRD 和优化的SEIRDV的隔室模型作为主干网络，通过PINN 神经网络对微分方程参数进行学习。重点关注感染隔室的数据，应用4 种评估指标（平均绝对误差、均方误差、均方根误差和决定系数）验证模型的准确性，并对神经网络得到的参数进行合理性检验。

1 方法

采用基础的SERID、优化的SERIDV 隔室模型以及PINN 神经网络结合隔室的模型。

1.1 隔室模型

隔室模型常应用于传染病动力学，包括隔室：易感者（S）、暴露者（E）、传染者（I）、康复者（R）和死亡者（D）。易感者指未感染病毒且可能被感染的人群；暴露者指已感染病毒但还不具有传染性的人群，这意味他们处于病毒的潜伏期；感染者指已感染病毒且具有传染性的人群；康复者指已恢复、因体内有抗体而不易被病毒再次感染的人群；死者指死于病毒的人群。

以广泛被研究的SEIRD 隔室模型为基础，其微分方程如公式（1）~公式（5）所示。

式中：S（t）为易感者数量；t为时间；I（t）为传染者数量；E（t）为暴露者数量；R（t）为康复者数量；D（t）为死亡者数量；β为感染率；γ为潜伏期倒数；λ为恢复期倒数；ρ为死亡期倒数；κ为死亡率。

在SEIRD 隔室模型的基础上，考虑疫苗对疫情的影响，该文创新性地加入了疫苗接种（V）隔室。这个隔室指已经完全接种疫苗的人群，当疫苗有效时，他们因获得病毒抗体而不易被感染；当疫苗无效时，认为他们成为感染者。SEIRD 隔室模型的微分方程如公式（6）~公式（11）所示。

式中：V（t）为接种疫苗者数量；σ为疫苗无效率。

1.2 基于物理信息的神经网络模型（PINN）

PINN 利用先验知识来指导学习，其由2 个部分组成，一部分是负责输出预期结果的网络，另一部分是计算导数的残差模块，残差由物理定律定义的预期导数与获得的导数生成，先验知识是不同隔室之间的传输流。PINN 与SEIRD 隔室模型组合形成的结构如图1 所示，与SEIRDV隔室模型组合形成的结构与其类似。

图1 PINN+SEIRD 模型的结构（包括1 个神经网络和1 个微分方程系统）

该文采用一个密集连接的神经网络，它有2 层16 个隐藏单元，以时间t为输入，产生SEIRD 和SEIRDV 隔室模型的所有组成部分（S、E、I、R、D 和V）。残差模块对这些成分进行自动微分，以获得计算残差的导数，这个模型的损失函数是由第一部分的回归损失和微分模块的残差损失组成的。

1.3 数据集

主要数据来自世卫组织COVID-19 仪表板，包括美国每日病例、死亡和疫苗使用的官方计数以及世界实时统计数据的美国每日确诊病例数据。将2 个数据集的数据合并，采用7 d 移动平均过滤器来平滑数据。选择确诊病例的3个上升趋势作为3 个独立的训练期，3 个数据集在选定时间的数据变化趋势如图2 所示。

图2 3 个阶段的感染者、恢复者、死亡者和疫苗接种者数据图

1.4 评估指标

该文使用4 个评估指标（平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和决定系数（R2_score））来定量评估所提出的模型的性能。当MAE、MSE和RMSE越接近于0、R2_score越接近1 时，模型表现越好。其中，MSE和RMSE是在MAE的基础上进行改进的，如公式（12）~公式（14）所示。

式中：y为需要进行评估的结果；为原始的数据；m为数据的大小。

以上3 种评估指标容易受变量量纲大小的影响，当人数较多时，指标数值较大，不易看出效果，因此引入R2_score进行评估，如公式（15）所示。

式中：y为需要进行评估的结果；N为数据的大小。

2 试验

展示PINN 神经网络和隔室模型的试验设置、试验过程、结果数据、对结果的评估以及对结果的合理性解释。

2.1 试验设置

设置PINN 神经网络的迭代次数为5 000，有1 层输入层、4 层隐含层和1 层输出层。其中输入层输入数据集的感染者、恢复者、死亡者和疫苗接种者数据，4 层隐含层每层有32 个节点用于学习隔室模型的微分方程参数，最后的输出层输出隔室模型中各隔室的数据。因为暴露者（E）隔室的数据不易从数据集中获取，所以在对其他隔室的数量进行学习后，从总人数中减去其他隔室，得到E 隔室数据。

2.2 试验过程

在3 个阶段的数据集上分别进行PINN+SERID 组合模型和PINN+SEIRDV 组合模型的试验，因为第一阶段缺失疫苗接种人数的数据，所以只应用PINN+SERID 组合模型。数据集中80%的数据用于学习，剩下20%的数据用于预测。

首先，对神经网络的输出来说，分时间阶段呈现感染者的数据，以大致观察输出结果对其增长趋势的学习效果。其次，用4 个评估指标对学习和预测的感染者数据与原始感染者数据进行误差分析，以验证组合模型的准确性。最后，对神经网络学习的参数进行合理性分析，验证用隔室模型补充神经网络的可解释性。

2.3 试验结果

3 个阶段的感染者人数的试验结果如图3 所示，PINN+SEIRD 组合模型可以很好地拟合和预测数据，还可以较准确地判断峰值，说明SEIRD 隔室模型可以反应疫情的基本情况，PINN+SEIRDV 组合模型也可以很好地拟合和预测数据，较准确地判断峰值，但是效果比PINN+SEIRD 组合模型的效果差，应用4 个评估指标可以得到更准确的判断结果。

图3 PINN+SEIRD 和PINN+SEIRDV 组合模型在3 个数据集上拟合和预测的感染者结果

由表1 可知，PINN 神经网络学习的SEIRD 隔室模型的效果普遍比SEIRDV 隔室模型的效果好，其原因可能是随着隔室增加，微分方程更复杂，需要神经网络学习的参数增加了2 个，在相同的神经网络下，学习效果会减弱。但是R2_score的值均大于0.9，可以认为2 种组合模型有良好的效果。

表1 PINN+SEIRD 和PINN+SEIRDV 组合模型在3 个数据集上拟合和预测的感染者的评估指标

对PINN 神经网络学习得到的隔室模型微分方程参数进行合理性判断。PINN 神经网络对2 种隔室模型学习的参数见表2。由表2 可知，阶段一是疫情初期，染率较高，为0.997，在6 d 左右被感染的人就开始存在感染性，且死亡率较高，被感染的人情况严重。因为缺失部分疫苗接种者的数据，所以得到的死亡率参数值较大，一般认为死亡率为0.15。缓解这一问题的方法可能是将参数κ的学习与其他的学习分开，根据参数κ的图表可知，它的值相当小，而且随着时间变化得很稳定。由于该文PINN+SEIRDV 模型引入了更多的参数，因此会导致欠拟合，可能需要一个更大的数据集或增加优化器来找到其最佳参数。对阶段二和阶段三来说，在考虑疫苗接种的情况下，2 种隔室模型的感染率均降低，新增加的疫苗接种率较高，且疫苗无效率较低。一般认为疫苗接种率为0.6，疫苗无效率为0.1，疫苗接种的参数不太准确，考虑为疫情后期，大部分人已接种疫苗，新增的接种疫苗人数不高。因此通过PINN 神经网络学习的参数较合理，模型有良好的可解释性。

表2 PINN 神经网络学习得到的隔室模型微分方程参数值

3 结语

综上所述，在3 个数据集上通过PINN 学习SEIRD 和SEIRDV 隔室模型的微分方程参数得到的感染隔室的拟合和预测结果良好，对峰值的动态性预测良好，验证了疫苗接种隔室的有效性，且神经网络学习的参数有一定合理性，针对有偏差的参数提出了可能的原因和解决方法，验证了隔室和神经网络组合模型具有良好的解释性。

上述试验是在美国的COVID-19 数据集上进行的，未来可以专注于不同国家的、更广泛的数据集。