基于深度置信网络的乳腺肿瘤辅助诊断

2019-10-08 06:27吕文豪雷菊阳
软件 2019年6期
关键词:随机森林支持向量机

吕文豪 雷菊阳

摘  要: 乳腺肿瘤的计算机辅助诊断对乳腺肿瘤的诊断和治疗有着重要意义。本文提出一种基于深度置信网络(Deep Belief Network, DBN)的乳腺肿瘤辅助诊断方法。将病人的细胞核图像参数作为深度置信网络的输入,对病人乳腺肿瘤恶性与良性进行判断,并与传统的基于支持向量机、概率神经网络和随机森林模型进行比较。实验结果表明,基于深度置信网络的乳腺肿瘤辅助诊断方法能够进行准确的判断,并且具有较高的准确率。

关键词: 深度置信网络;支持向量机;概率神经网络;随机森林;乳腺肿瘤辅助诊断

中图分类号: TP391.4    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.06.036

本文著录格式:吕文豪,雷菊阳. 基于深度置信网络的乳腺肿瘤辅助诊断[J]. 软件,2019,40(6):157159

【Abstract】: Computer-aided diagnosis of breast tumors is of great significance in the diagnosis and treatment of breast tumors. This paper presents a method of breast cancer diagnosis based on Deep Belief Network (DBN). Taking the patient's nuclear image parameters as input to the deep belief network to judge the malignancy and benign of the patient's breast tumor. Compared with traditional models based on support vector machine, probabilistic neural network and random forest. The experimental results show that the method of breast cancer diagnosis based on depth belief network can make accurate judgment, and has a better accuracy.

【Key words】: Deep belief network; Support vector machine; Probabilistic neural network; Random forest; Breast tumor assistant diagnosis

0  引言

乳腺癌是女性最常见的恶性肿瘤,严重威胁女性健康[1]。乳腺癌若能早期发现、早期诊断和早期治疗,可取的良好的效果[2]。传统的概率神经网络、支持向量机和随机森林等诊断方法较为简单,均属于浅层机器学习方法,无法充分挖掘数据特征,诊断准确率不高。深度置信网络具有强大数据特征提取分析能力,通过无监督学习对数据进行预训练,再通过有监督学习进行反向参数调整,充分分析数据特征,提高诊断准确率。本文通过实验证明了基于深度置信网络的乳腺肿瘤辅助诊断方法的可行性并且具有较高诊断准确率。

1  受限玻尔兹曼机

受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)是Smolensky于1986年基于玻尔兹曼机提出的一种随机生成神经网络,RBM的结構如图1所示。RBM是一个无向二部图的结构模型,它由两层组成,第一层是可见层(visible layer),即输入层,用 表示,第二层是隐层(hidden layer),用于提取数据特征,用 表示。层与层之间的连接权重用 表示, 表示第 个可见层单元和第 个隐层单元之间的连接权重, 表示第 个可见层单元的偏置, 表示第 个隐层单元的偏置。由于两层之间连接的对称性,即 。我们记 ,其中 为可见层和隐层之间的连接矩阵, 为可见层的偏置向量, 为隐层的偏置向量。

2  深度置信网络

2006年,Hinton等人[3]提出了通过堆叠多层的RBM的方式,构建深度置信网络,并在2012年的ImageNet比赛中以巨大优势获胜,DBN模型示意图如图2所示。深度置信网络通过堆叠多个RBM,网络可视层v即输入层,前一个RBM的输出作为后一个RBM输入,最后一层采用softmax分类器作为结果的输出。深度置信网络的训练步骤包括两个部分,预训练和微调。

2.1  预训练

DBN的预训练首先训练第一个RBM层,既固定第一个RBM的权值矩阵和偏置向量,将第一个RBM的隐层作为第二个RBM的输入层。不断重复上述步骤,直至将所有的RBM训练完成。保存每一层的RBM参数,作为DBN网络的初始参数。

2.2  微调

DBN的微调采用BP网络误差反向传播算法。

由于DBN的预训练过程训练好了每一层的RBM的参数,因此每一层的RBM参数都达到了局部最优解,但是相互叠加的RBM参数并没有达到DBN网络的全局最优解,因此采用BP网络的误差反向传播算法可以微调RBM参数,使每一层的RBM局部最优解达到整个网络的全局最优解。

3  实验设计

3.1  实验数据采集

本实验采用美国威斯康辛大学医学院的乳腺癌数据集。该数据集共包括569例乳腺癌细胞数据,其中良性数据357例,恶性数据212例。数据集包括细胞核图像的10个量化特征(细胞核半径、质地、周长、面积、光滑性、紧密度、凹陷度、凹陷指数、对称度、断裂度)。本实验选取的训练集数据和测试集数据如表1所示。

部分实验数据如表2所示。

3.2  数据归一化

3.3  网络创建

根据实验数据大小及分类个数,实验参数设置如表3所示。

3.4  训练及仿真

首先用480例乳腺肿瘤训练样本进行DBN网络的训练,再用89例测试样本进行测试。将测试结果输出进行标记,乳腺肿瘤为良性的记为1,恶性的记为2。仿真结果如图3所示。

3.5  实验结果分析与对比

由图5的仿真结果可知,在现有样本下基于DBN的乳腺肿瘤诊断方法准确率为95.5%。为说明基于深度置信网络的乳腺肿瘤辅助诊断方案的效果,本文也对文献4提出的基于随机森林的诊断方法,文献5提出的基于支持向量机的诊断方法和文献6提出的基于概率神经网络的方法做了对比,结果如图4所示。

4  结束语

本文将深度置信网络模型用于诊断乳腺肿瘤的辅助诊断,并对比了传统的基于支持向量机、概率神经网络和随机森林模型。从实验结果可以看出,基于深度置信网络的新型乳腺肿瘤辅助诊断方法有着较高的准确率。深度置信网络有望成为一种有效并且实用的乳腺肿瘤辅助诊断工具,通过计算机手段减少人的主观误诊,提高诊断准确率。

参考文献

[1] 白成梅, 张易青. 年轻女性乳腺癌的研究进展[J]. 临床医药文献电子杂志, 2018, 5(36): 194.

[2] 王欣, 李文萍.  早期乳腺癌的诊斷及其治疗[J]. 中国普外基础于临床杂志, 2004, 11(1): 9-10.

[3] Hinton G E, Salakhutdinov R R. Reducing the dimension- ality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[4] 刘永春, 宋弘. 基于随机森林的乳腺肿瘤诊断研究[J]. 电视技术, 2014, 38(15): 253-255.

[5] 刘兴华, 蔡从中, 袁前飞等. 基于支持向量机的乳腺癌辅助诊断[J]. 重庆大学学报(自然科学版), 2007, 30(6): 140-144.

[6] 程智辉, 陈将宏. 基于概率神经网络的乳腺癌计算机辅助诊断[J]. 计算机仿真, 2012, 29(9): 166-169.

猜你喜欢
随机森林支持向量机
拱坝变形监测预报的随机森林模型及应用
基于改进支持向量机的船舶纵摇预报模型
基于支持向量机的金融数据分析研究
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测