基于体检大数据高血压病的BP神经网络发病预测模型建立及应用

2021-09-19 02:53宋华翠辛铁君戴翔刘洋春子张莹高莉洁
健康体检与管理 2021年7期
关键词:BP神经网络变量危险因素

宋华翠 辛铁君 戴翔 刘洋春子 张莹 高莉洁

【摘要】目的:分析某企业高血压主要危险因素,建立发病预测模型。方法:利用某企业2006-2016年体检的大数据,采用广义估计方程筛选高血压病的危险因素,采用BP神经网络模型建立高血压发病预测模型。结果:BP神经网络模型对各自变量对预测高血压的重要性依次为体检年龄、体重指数、性别、混合型高脂血症、饮酒习惯、高甘油三酯血症、吸烟习惯、饮食习惯,经过验证对高血压病有较好的预测能力。结论:BP神经网络模型能够较好的解决多因子复杂疾病预测问题,具有较好的预测效果。本研究对高血压病的主要危险因素的重要性排序,可对该疾病干预提供依据。

【关键词】BP神经网络;高血压;危险因素;变量

Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.

Keywords: BP neural network, hypertension, risk factors, variables

前言

高血壓是心血管疾病的主要危险因素,近年来我国高血压患病率呈明显上升趋势,高血压是由多基因遗传和多种环境不良因素交互作用而成,其长期发展可导致动脉粥样硬化病情的发展及形成加速,引发心肌缺血、缺氧及坏死,形成冠心病。多个危险因素的联合作用导致了高血压疾病的发生,影响慢性病发生的危险因素它们之间往往存在复杂的非线性关系。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。人工神经网络(artifieial neural networks,ANN)可以更好地揭示这些变量间的关系,通过数据挖掘可以分析多个变量对结果变量的作用大小,更好地揭示这些变量间的关系,预测疾病发生概率。本研究就是运用这种模型预测高血压。

1 对象与方法

1.1 研究对象

选取2006年1月-2016年12月,年龄18岁以上某企业员工在职与退休员工51.2416万人次的体检数据。

1.2 研究内容

本研究从年龄、性别、行为生活方式、体检监测指标等方面,进行高血压风险因素相关性分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析。

1.3 研究方法

为确定本研究中所使用的变量,分别对各年组高血压进行广义估计方程分析单因素分析和多因素分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析,筛选有意义的变量纳入BP神经网络模型,采用多层感知器方法进行高血压模型构建,通过对比ROC曲线下面积验证预测效果,

1.3.1 广义估计方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在广义线性模型的基础上提出来主要被应用于水平数为两水平的纵向观察资料的分析,用于分析存在相关性数据的一种回归模型。

1.3.2  BP 神经网络模型人工神经网络(Artificial Neural Network,ANN)是通过对人脑的基本单元——神经元的建模和联结,来探索模拟人脑神经系统功能的模型,其信息处理是通过信息样本对神经网络的训练,使其具有人的大脑的记忆、辨识能力,完成各种信息处理功能。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)(如图1所示)。

2 结果

2.1 筛选高血压危险因素

广义估计方程分析服从二项分布,选取联接函数为logit,工作相关矩阵选择独立,以高血压作为因变量(表1),进行单变量广义估计方程分析,结果如表2。经单变量广义估计方程分析,在α=0.05的检验水准下,高血压体检年龄、性别、体重指数、饮食习惯、饮酒、吸烟、运动习惯、血糖异常、有高甘油三酯血症、有高胆固醇血症、有混合型高脂血症11个变量均有统计学意义,P<0.05。将高血压单因素分析有统计学意义的高血压11个变量,最终进入方程模型的变量分别为体检年龄、性别、体重指数、饮食习惯、饮酒、吸烟、运动习惯、有高甘油三酯血症、有混合型高脂血症9个变量进一步进行多变量广义估计方程分析。选取联接函数为二项logit,工作相关矩阵选择独立,进行广义估计方程分析,分析结果见表高血压表见表3。分析结果显示,高血压体检年龄、性别、体重指数、饮食习惯、饮酒、吸烟、有高甘油三酯血症、有混合型高脂血症8个变量有统计学意义,其中体检年龄、体重指数、性别、饮酒、有高甘油三酯血症、有混合型高脂血症是高血压的危险因素,OR值分别为1.076(1.075,1.077)、1.189(1.184,1.194)、1.921(1.847,1.998)、1.625(1.578,1.672)、1.354(1.318,1.391)、1.628(1.566,1.691)。

2.2 构建BP神经网络模型

将高血压危险因素广义估计方程多因素分析有统计学意义的8个变量纳入BP神经网络模型,采用多层感知器方法进行模型构建,本研究采用自动体系结构建立BP神经网络模型。

对原始数据文件进行随机化抽样,将数据划分为"训练样本(50%)"、"检验样本(30%)"、"保持样本(20%)"3个区块,高血压如图1所示。为了随机过程可重复,事先指定固定种子一枚,设置随机数固定种子为91919876。

输入层包含8个变量体检年龄、性别、体重指数、饮食习惯、饮酒习惯、吸烟习惯、有高甘油三酯血症、有混合型高脂血症,共18个单位数。输出层为因变量高血压,有2个单位数。隐藏层数为1,隐藏单位数为6,激活函数为双曲正切。输出层为因变量高血压,有2个单位数,激活函数为Softmax,错误函数为交叉熵。样本分类预测结果,如图2所示,本研究构建的高血压神经网络预测模型,模型误差在1个连续步骤中未出现优化减少现象,模型按预定中止。模型在3个分区中的不正确预测百分比较接近。模型分类表,软件默认采用0.5作为正确和错误的概率分界,将3大分区样本的正确率进行交叉对比,如图3所示。训练样本预测不正确百分比为26.2%,正确的百分比为73.8%;测试样本不正确的百分比为26.7%,正确的百分比为73.3%;保持样本的不正确百分比为26.4%,正确的百分比为73.6%。模型的参数估计值如图4所示。从图5的观察预测图可以看出,按照高血压患病与否与预测结果进行分组,纵坐标为预测概率。以0.5为分界时,对不患高血压的识别能力较好于对患高血压的识别能力。

2.3绘制ROC曲线

ROC曲线下的面积将本模型预测结果绘制ROC曲线,高血压曲线下的面积为0.802,95%可信区间为(0.800,0.803),P值<0.001,有统计学意义,如图6,图7所示。

2.4 对高血压主要危险因素重要性排序

BP神经网络模型对各自变量对预测高血压的重要性进行分析,各变量标准化的重要性依次为体检年龄、体重指数、性别、混合型高脂血症、饮酒习惯、高甘油三酯血症、吸烟习惯、饮食习惯。

3 讨论

高血压为多因子疾病,因子本身分布多态,致病因素多,各因素间关系和作用方式复杂,预测因子之间本身也存交互作用、多重共线性,干扰统计模型的拟合效率,干扰了高血压预测和病因研究。传统的模型处理变量之间的共线性问题,进行高血压等复杂疾病预测具有一定的局限性。人工神经网络是模拟生物神经网络进行数据处理的一种数学模型,在神经网络中,对外部环境提供的模式样本进行学习训练,并能存储这种模式,对外部环境有适用能力,能自动提取外部环境变化特征。SPSS神经网络中,包括多层感知器和径向基函数(RBF)两种方法。多层感知器 (Multi-layer  Perceptron,MLP)是一種前向结构的人工神经网络,映射一组输入向量到一组输出向量,由多个节点层组成,每一层全连接到下一层。每个节点都是一个带有非线性激活函数的神经元,它的过程会根据预测变量的值来生成一个或多个因变量的预测模型。人工神经网络可以更好地揭示这些变量间的关系,通过数据挖掘可以分析多个变量对结果变量的作用大小,更好地揭示这些变量间的关系,预测疾病发生概率。验证证明该模型具有较好的预测效果。

通过广义估计方程筛选出体检年龄、性别、体重指数、饮食习惯、饮酒、吸烟、有高甘油三酯血症、有混合型高脂血症8个变量有统计学意义,与文献报道的高血压危险因素基本相一致。BP神经网络模型对各自变量对预测高血压的重要性进行分析,各变量标准化的重要性依次为体检年龄、体重指数、性别、混合型高脂血症、饮酒习惯、高甘油三酯血症、吸烟习惯、饮食习惯。运用多层感知器进行模型构建,发现训练样本预测不正确百分比为26.2%,正确的百分比为73.8%;测试样本不正确的百分比为26.7%,正确的百分比为73.3%;保持样本的不正确百分比为26.4%,正确的百分比为73.6%,模型的参数估计值如图7所示。从图8的观察预测图可以看出,按照高血压患病与否与预测结果进行分组,纵坐标为预测概率。以0.5为分界时,对不患高血压的识别能力较好于对患高血压的识别能力。

本文由于调查的危险因素基于体检报告系统,报告系统危险因素较少,不够全面,缺少生活习惯,家族史等信息,存在一定的局限性。

参考文献:

[1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.

[2]Lim SS,Vos T,Flaxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.

[3]王隴德.中国居民营养与健康状况调查报告[M].北京:人民卫生出版社,2005.53-57.

[4]孙蓉,顾建建,孙峰等江苏省自然人群高血压患病率及相关因素分析[J]. 江苏临床医学杂志。2002 ,6(6):534-536

[5] 曾坪,罗森林,吴曦. 社区人群主要行为因素与高血压的相关性分析[J ]. 临床合理用药杂志,2009,2(9):28-30.

[6]王丽娜,曹丽,张敬一,等河北省成年居民高血压病状况及相关因素分析[J ].中国慢性病预防与控制,2008,16(2):1148-1152.

[7]毛浩丹,吴建方,周义红,等常州市农村地区人群高血压流行病学调查[J ].疾病控制杂志,2005,9(5):406-408.

[8]张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2008:31-36.

[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.

[10]Türkyilmazi,Kaçan K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.

[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42

[12]高飞,高焱莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.

[13]种冠峰,相有章.中国高血压病流行病学及影响因素研究进展[J].中国公共卫生,2010,26(3):301-302.

[14]高飞,高炎莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.

猜你喜欢
BP神经网络变量危险因素
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
骨瓜提取物的不良反应分析
BP神经网络算法在数值预报产品释用中的应用
分离变量法:常见的通性通法
不可忽视变量的离散与连续
轻松把握变量之间的关系
变中抓“不变量”等7则