基于深度学习的医疗辅助诊断数据分析方法

2022-04-20 07:23程顺达

电子设计工程 2022年7期

程顺达，祝婕，夏芳

（河北省中医院信息中心，河北石家庄 050000）

随着信息技术的不断发展，智能化的疾病辅助诊断在解决专业医师人力缺乏的同时，有效提升了诊疗效率，这样能够促进整体医疗水平的快速提高[1]。医疗辅助设备的广泛应用，使得医疗辅助数据呈献出快速的增长趋势。同时，这些数据中也蕴含了大量有价值的信息，不仅有利于患者康复，更能促进医疗水平的整体提升[2-3]。因此对这些辅助医疗设备数据进行分析处理与应用，是实现医疗智能化的必备条件之一[4]。

传统的辅助诊断方法主要是利用关联规则等传统机器学习算法，但传统方法存在特征提取不完整等缺陷。虽然能够获取特定的病情数据特征，但无法使用更加充分的数据来诊断病情，泛化与自适应的性能较差[5-6]。而深度学习算法可利用海量的医疗数据信息自动获得深层次和浅层次的特征，且能够提取人力所无法获得的数据特征[7]。因此，利用深度学习算法辅助医疗诊断，得到了各国专家学者的广泛关注并予以研究[8]。

为此，文中提出了基于深度学习的医疗辅助诊断数据分析方法，在利用主成分分析（Principal Component Analysis，PCA）对医疗数据进行预处理后，输入多层感知器（Multilayer Perceptron，MLP）神经网络进行分析，以实现准确的医疗诊断，从而为专业医师提供辅助。

1 数据预处理

在利用深度学习进行医疗数据分析前，需要对其进行预处理，在归一化处理的基础上，利用主成分分析（Principal Component Analysis，PCA）方法完成维度的降低。

1.1 归一化处理

用原始数据对医疗数据进行分析存在一定的难度，所以对数据进行预处理尤为必要，这样能够提升方法的分析效率。其中，预处理主要是对数据进行归一化，即根据相应的规则将数据转换成（0,1）范围内的数据，并将有量纲的数据转换成没有量纲的数据，从而提升数据分析的准确率，且缩短计算时间[9]。

对原始数据集矩阵每一列的数据进行归一化处理如下：

1.2 PCA降维处理

众所周知，疾病的生理指标之间存在着众多内在联系，因此难以通过人为因素来判断。而PCA 作为一种较为经典的降维算法，其核心思想是经过降维的方法将较多个变量转换成几个主要成分进行汇总分析[10]。其中的主要成分可展现原始变量大多数的信息，因此这些主成分所包含的信息并不重叠，同时要求主成分之间不存在相关性。

假设x1,x2,…xi,…,xn是从总体X中抽取的样本，，k是样本的维数。总体X的协方差矩阵未知，需要通过上述变量进行估计，观测值矩阵为：

样本协方差矩阵为：

其中，X的每一行对应一个样本，每一列对应一个变量。是样本的平均值，样本的主成分可以从S中得到。将样本的观测值xi代入第j个主成分，得到是样本xi的第j个主成分。

PCA 中的每个维度均有一个贡献率，并根据贡献率的大小选择相应的特征值。m个主成分的贡献率之比为：

其中，λ对应正交单位特征向量，主成分的贡献率反映了其综合原始变量信息的能力。通常取较小的m(m≤p)，前m个主成分的累积贡献率应保持在一定的水平(85%～95%)，从而达到降维的目的。

2 基于MLP的医疗诊断数据分析

由于传统的机器学习方法难以处理大样本、线性的医疗诊断数据，为此引入了基于深度学习的MLP 神经网络。将预处理后的数据输入MLP 模型，以得到诊断分类结果，从而辅助医师完成病情分析。

2.1 MLP神经网络

深度学习源于人工神经网络的研究，含有多个隐藏层的MLP 是一种深度学习结构。其由较多层神经元构成，通常包括一个输入层、一个或多个隐藏层以及一个输出层[11-12]。含有两个隐藏层的MLP 神经网络模型如图1 所示。

图1 MLP神经网络模型

其中，输入层用于数据的输入，设置在神经网络模型的最前端；隐藏层是系统的核心部分，主要负责复杂的数学计算，位于模型中间部分的一层或多层；输出层负责输出数据，该层次的个数与数据类型的数量一致[13-14]。输入层不需要权值与下一层相连，其他神经元均经过权值与下一个神经元的输入端相连。

MLP 网络的第q个数据记作{xq,tq}，其中，xq为K维的输入向量，tq为G维的目标输出向量。在输入层后多加入一个节点xq(K+1)=1 构成输入量，这一节点的阈值根据隐藏层与输出层间的权值进行设定，从而将输入向量转成K+1 维。

对于第q个数据而言，第l个隐藏层的输出表示如下：

其中，f(·) 是Sigmoid 激励函数，ωih是连接输入层与隐藏层之间的权值。

对于第q个数据样本、G维的输出向量，第i个输出yq(i)可表示为：

其中，ωoi为输入层与输出层直接相连的权重，ωoh为隐藏层与输出层间的权重。

2.2 医疗辅助诊断数据分析方法

对诊断数据进行PCA 降维后，即可获得可有效表示医疗数据的特征值，且对模型参数进行实验训练[15-16]。实验数据大致包括两种类型：即训练集与测试集。利用训练集对MLP 神经网络进行参数训练，然后用测试集对所提分析方法进行评估。

用于医疗辅助诊断数据分析的MLP 神经网络模型由输入层、隐藏层1～3、输出层组成，如图2 所示。

图2 基于MLP的医疗辅助诊断数据分析模型

其中，输入层的输入数据为经PCA 处理后的医疗数据，且留存了原有的属性维度；隐藏层有3 层，1～3 神经元数目依次为32、16、16；输出层的神经元数目与医疗数据类型数目一致；分类层利用Softmax分类器实现分类，并采用ReLU 激活函数。此外，所提数据分析模型利用交叉熵损失函数和Adam 方法进行参数训练，以获得最优的分析模型参数。

3 实验结果与分析

实验中采用Python 语言并使用Keras 深度学习库，实验硬件环境为Windows 10 操作系统，使用诊断平均准确率（Average Precision，AP）、损失值（Loss）两个指标对所提方法进行评价。

实验数据主要包括两个数据库，即病患的体检数据库和诊断信息库。其中体检库包含了所有体检数据信息，诊断库包含了病患的所有诊断信息。两个数据库由病患的就诊卡号进行关联，经过病患的体检信息便可判断其是否生病。该实验中，共包含52 389 名病患的体检与诊断数据信息，并从两张表中提取出实验需要的数据集，同时将其按8：2 划分为训练集和测试集。

将所提MLP 神经网络的学习率设置为0.001，动量因子为0.99，RMSProp 参数设置为0.999，最大迭代次数设置为20 000。

3.1 参数分析

实验中，利用5 折交叉验证评价所提方法的性能。由于神经网络的总层数及隐藏层的层数对MLP网络性能影响较大。为了选择最佳配置，对不同神经网络层数及每层不同隐藏神经元数目进行实验，结果如表1 所示。

从表1 中可看出，隐藏单元数为64 个的4 层神经网络取得了最佳的诊断准确率，为85.9%。因此将所提方法中的MLP 网络的神经网络层次设为4，隐藏层单元数为64 个。

表1 诊断准确率

3.2 诊断数据分析性能

操作特性（Receiver Operating Characteristic，ROC）曲线是根据真阳性率（True Positive Rate，TPR）与假阳性率（False Positive Rate，FPR）进行绘制的。其中，ROC 对角线可视为数据随机分析效果，若所提方法的ROC 曲线处于对角线的下部，则说明其性能较差。所提方法的ROC 曲线如图3 所示。

图3 ROC曲线

从图3 中的ROC 曲线可看出，所提方法在训练集和测试集上表现均较优，具备较高的分析准确率。

3.3 性能对比分析

为了论证所提方法的性能，将其与文献[6]、文献[11]、文献[14]中的方法进行对比分析，损失值对比结果如图4 所示。

图4 损失值对比结果

从图4 中可看出，相比于其他对比方法，所提方法的损失值最低，接近53。由于其利用PCA 降维，计算量降低，因此在4 000 次时实现收敛。文献[11]结合神经元和前向神经网络进行医疗诊断，数据量较大，收敛速度慢，且损失值较高；文献[14]利用卷积神经网络，虽然损失值有所降低，但模型复杂，收敛速度较慢。

同样，所提方法与文献[6]、文献[11]、文献[14]中的方法在诊断平均准确率上的对比结果如图5所示。

图5 平均准确率对比结果

从图5 中可看出，所提方法的平均准确率约为85%，均优于其他对比方法，因为其采用MLP 分析PCA 获得的数据特征，准确率得到进一步保证。文献[6]采用反向传播网络判别疾病类型，方法简单但准确率较低。文献[11]结合神经元和前向神经网络、文献[14]采用卷积神经网络进行医疗诊断，诊断准确率均有所提高，但由于缺乏数据的预处理，数据分析性能较弱。

4 结束语

文中在医疗数据处理中融入功能强大的深度学习算法，并提出了基于MLP 的医疗辅助诊断数据分析方法。在对医疗诊断数据进行预处理的基础上，利用MLP 神经网络处理获得的数据特征，以实现诊断分类。此外，基于Python 软件平台的实验结果表明，当MLP 网络的神经网络层次设为4，隐藏层单元数为64 时，诊断准确率最佳，且所提方法的ROC 曲线较接近1。其平均准确率与损失值分别为85%和53，能够为专业医师提供精准的辅助诊断。

由于PCA 中可能存在正负主成分因子，这样会造成评估函数效果减弱，且影响计算效率。所以在未来的研究中，可采用例如深度自编码器等模型进行数据降维处理。