基于LDA和ARIMA模型的煤矿安全隐患数量预测研究

2024-03-13 08:34刘飞翔赵嘉良
2024年3期
关键词:特征词隐患煤矿

詹 平,刘飞翔,赵嘉良

(1.山西潞安集团 潞宁煤业有限责任公司,山西 忻州 036700;2.华北科技学院 矿山安全学院,北京 东燕郊 065201)

随着煤矿数字化与智能化进程逐步推进,煤矿安全隐患管理系统已经在全国煤矿大范围使用,这给煤矿事故隐患排查治理工作带来了非常大的便利[1-3]。然而,在煤矿建设工作的进一步智能化要求面前,安全隐患管理系统中记录、统计、过程管控等基本功能已经不能满足日渐提升的智能化要求,缺少行之有效的深度分析方法,对积累的大量安全生产隐患数据分析深度不足[4]。

目前,已有研究对煤矿隐患挖掘和预测进行多次探索。赵作鹏等[5]建立煤矿隐患数据挖掘模型,分析挖掘算法及隐患多维数据间的联系;陈运启[6]利用支持度-置信度-Kulczynski度量模式发现因素间关联规则,为辅助性决策提供了有利依据;杨中等[7]对有限煤矿事故样本统计并进行灰色关联处理,建立相应的灰色预测模型;赵丹等[8]通过支持向量机建立分类预测模型预测爆炸危险等级,协助危险性评估工作的开展;兰建义等[9]建立SCGM(1,1)_c预测模型,对我国煤矿事故百万吨死亡率成功进行了预测;王玉丽、李闯等[10-11]改进马尔科夫预测模型,并将其与时间序列预测模型及灰色预测GM(1,1)进行对比,证明了预测模型在煤矿瓦斯事故数量、顶板事故致死人数预测中的精确程度与实用性。

然而,现有研究大多是对结构化数据进行分析研究,对于非结构化文本数据研究相对缺乏。因此,如何从海量隐患文本数据中获取有价值信息,进而指导安全管理,是目前亟待解决的问题。本文利用LDA主题模型对煤矿安全隐患文本中的主题类型进行挖掘与分析后,结合ARIMA时间预测模型对煤矿隐患数量趋势进行预测,可为煤矿安全生产管理人员日常隐患管理及决策提供辅助决策支持,保障煤矿安全生产的顺利进行。

1 LDA模型及ARIMA预测模型构建

1.1 LDA模型

LDA(Latent Dirichlet Allocation)模型是基于概率的统计模型。该模型分为文档层、主题层和词汇层,如图1所示。LDA主题模型理念认为,文档是由许多具有明确意义的特征词组成的,其应用的意义就在于通过显化文档和特征词,计算其中隐含的主题信息。

图1 LDA模型拓扑结构示意

以LDA主题模型观点来看,每篇文档中存在某些隐含主题,这些主题分别由某些在某方面高度相关的词汇组成。其特征值表示对应词汇在该主题下出现的频率。该频率与词汇、主题关联性成正相关。同时,整篇文档又由高度差异化的各类主题构成。一个特征词可以出现在多个主题下,但是由于分布概率差异,每个特征词大概率会被归类至与其关联程度最高的主题,从而实现特征词分类。

煤矿事故隐患文本含有大量专业词汇,且记录人员较为繁杂,记录规范程度较低,煤矿积累的事故隐患文本数据量较大,因此使用LDA主题模型从煤矿事故隐患台账和隐患文本特征词中探寻煤矿事故隐患的隐含主题,具有一定可行性。

在建立LDA主题模型前,需要提前确定该语料下包含的主题个数,因此需要考虑最佳主题数的选取,从而使聚类结果达到最优。最佳主题数选取一直是聚类问题的核心,也是影响和评价聚类结果关键性因素之一[12]。

本文采用困惑度来确定最佳主题个数。计算中,LDA主题模型的最终质量和困惑度大小成负相关。困惑度的计算公式为:

(1)

式中:分母为文档集M的总长度。分子中的p(wd,i)为文档集M中第d篇文档出现第i个单词的概率,计算公式为p(wd,i)=p(z|d)×p(w|z),其中p(z|d)为任意主题在某文档中出现的概率,p(w|z)为任意特征词在某主题下出现的概率。

1.2 ARIMA预测模型

ARIMA(自回归差分移动平均模型)是将一个非平稳时间序列经过差分操作从而消除其局部趋势后,使其符合ARMA模型要求,从而可以进行时序预测的方法。该模型有3个基本参数:p,d,q.分别为自回归项阶数、差分次数、移动平均的项数[13-15]。

煤矿隐患数量变化趋势既受外在人机环管等因素的影响,又由于监管原因受到自身历史值影响,因此采用ARIMA模型对煤矿隐患数量趋势进行预测是可行的。

建立基于ARIMA的隐患预测模型步骤如下:

第1步,获取被观测系统时间序列数据。根据时间顺序将目标序列依次排列,计算其ACF(自相关系数)与PACF(偏自相关函数)并进行绘图,根据其图像对数据的平稳性进行检验。

第2步,对该非平稳时序数据进行差分将序列平稳化处理。利用t与t-1时刻差值进行绘图,再根据绘制图形继续进行多次差分处理,直至图像趋于平稳,完成平稳化处理。

第3步,根据识别规则(见表1)建立相应模型并求解p,q.其中ACF反应了同一序列在不同时刻取值的相关性,PACF反应了某时刻序列与该序列历史值的相关关系。截尾是指该函数在某阶后突然衰减,从而导致95%点落在置信区间内的性质。

表1 ARIMA模型识别原则

第4步,根据AIC(赤池信息准则)或BIC(贝叶斯信息准则)对模型参数定阶。

第5步,对历史数据训练集进行假设检验,诊断其可行性。根据第4步得到的参数建立ARIMA模型并得出结果,诊断模型精度。若模型精度较低,则重新选择模型参数。

第6步,若模型通过上述各项检验,则使用历史数据测试集对其进行检验,对比模型预测结果和实际数据。ARIMA模型构建流程如图2所示。

图2 模型构建流程

2 实例分析

2.1 数据集介绍

通过收集整理某煤矿安全生产信息系统中隐患排查记录信息,得到其在2011年6月—2019年9月的历史记录。经过分析与筛选,保留了其中有数据挖掘价值的信息,其中包括:检查时间、班次、隐患内容、整改措施等,相关的字段信息如表2所示。

表2 数据集相关字段信息

2.2 数据预处理

以一条隐患文本数据“8513回风巷部分风管接头处漏风”为例,本文选用中文领域内的Jieba分词器对目标事故隐患文本进行分词。其初步分词结果为:“8513/回风/顺槽/部分/风/管/接头/处/漏风”。上述的分词结果中存在对文本分析无作用的单字,如“风/管接头”、“回风/顺槽”等专有名词被错误的分割,所以需要设置停用词库处理无意义词汇,同时设置自定义词库以正确分割专有名词。

另外,煤矿事故隐患文本中的专业词汇较多,在分词之前,首先对自定义词典进行配置,从而提高分词准确率。在本文中,自定义词典来源于搜狗词库中的《采矿工程》、《矿山工程》、《煤矿工作》、《煤炭分析库》和自定义词汇五部分。本文构建一份包括2 139个煤矿专业名词的煤矿事故隐患自定义词典。在使用煤矿事故隐患定义词典,同时通过手动自定义建立停用词库之后,得到的分词结果为:“8513/回风顺槽/风管/接头/漏风”。

将分词完成的隐患文本构建为文本向量,并作为词典保存,为隐患文本聚类奠定相应的基础。

2.3 煤矿安全隐患文本聚类研究

2.3.1 确定主题数量

在文本向量转化完毕之后,就可以开始通过计算机程序构建隐患文本主题模型。首先通过计算困惑度的方式估计最佳主题个数。令主题数K依次取10,20,30……,将处理完毕的语料库带入构建的python程序,得到当LDA主题模型取不同主题个数时对应的困惑度变化图像,如图3所示。最小困惑度对应的主题个数就是计算得到最优主题数的估计值,即图中拐点K=24.

图3 主题数量困惑度曲线

2.3.2 LDA主题模型应用

确定最佳主题后,代入参数,选择迭代次数1 000次,对煤矿事故隐患文本主题进行挖掘,经LDA主题模型计算得到24类主题,每个主题包括概率最高的前15个词。根据《安全生产法》规定,进一步去除噪声主题,筛选出优质主题,最终确定14类隐患主题,主题与其关键词如表3所示。

表3 隐患主题及其关键词

将挖掘完毕的主题与对应关键词匹配至原隐患文本,通过Python程序统计得出各类隐患在历史发生情况中的时间分布并保存,用于下文的预测。根据以上主题挖掘模型可得出,在煤矿安全生产过程中,共有以上14类事故隐患较容易发生。因此,根据每个主题对应的特征词,可以总结出各类事故隐患对应的排查要点,具体内容如表4所示。

表4 各类事故隐患排查要点

2.4 煤矿安全隐患数量预测研究

2.4.1 数据平稳性处理与检验

在确定了煤矿的主题类别后,从中选择生产设备类隐患的关键词统计数据为例,对该煤矿进行生产设备类隐患数量的趋势预测。本文通过整理该矿生产设备类月隐患数量,共计得到101个月的时序数据。部分原始数据如表5所示。

表5 生产设备类隐患数量

在对隐患数据进行时序预测之前,需要对检验数据平稳性。对原始隐患统计数据进行单位根检验(ADF检验),其检验值如表6所示。从表中可以看出,原数据进行一阶差分后,其中P值远小于0.05,此时数据平稳性已经满足模型要求,可以在下一步的建模中使用一阶差分后的数据。

表6 序列变换操作及各项参数

2.4.2 确定模型参数

将上述一阶差分变换后的数据作自相关与偏自相关系数图像,进而确定ARIMA预测模型的参数范围,如图4所示。

图4 ACF与PACF图像

根据图4可知,ACF和PACF图像都成振荡状态,呈现出较好的拖尾性,因此,一阶差分变换后的序列数据符合ARIMA模型。同时由于模型阶数通常不会超过预测数据的1/10[16],因此确定p、q的取值范围为[0,10]。在p、q确定的范围内进行循环遍历计算,来计算不同模型的赤池信息值,如图5所示。

图5 赤池信息值热力图

根据图5可以看出,赤池信息值最小值为935.55,从而选择模型参数最优解为p=9,q=4,d=1,但由于7次自回归模型相对较复杂,考虑到模型简化问题,因此选取赤池信息值为942.30时,即p=0,q=6,d=1作为模型参数。

2.4.3 数据拟合及检验

将101个月的煤矿生产设备隐患类时序数据分为训练集(90个月)和测试集(21个月)两部分。利用ARIMA预测模型计算得到相应的拟合效果图,如图6所示。

图6 拟合效果图

同时,利用Python中的诊断函数对拟合出的模型进行模型诊断。诊断图如图7所示。在图7中,由标准化残差图7(a)可以看出,该模型预测值与实际值的残差不存在周期性规律,基本成白噪声形状。该结论可以通过残差分布直方图7(b)特性佐证,且残差分布直方图的的残差红色KDE线与正态分布曲线基本重合。同样,理论-实际分布图7(c)表示,残差分布遵循标准正态分布。自相关系数图像图7(d)表明,该时间序列残差与其本身的滞后值不具有明显相关性。综上所述,本文建立的ARIMA预测模型满足残差检验条件,可以对煤矿生产设备类的隐患进行预测。

图7 模型精度检验

2.4.4 隐患预测

应用本文所建立的ARIMA预测模型,对该煤矿2019年10月和11月煤矿生产设备类隐患数量进行预测,计算结果分别为66和90起。在煤矿下一步的隐患排查治理过程中,需要煤矿安全生产管理人员加强隐患治理相关的培训,同时加强该煤矿生产设备类隐患的排查与治理,切实提高煤矿的隐患排查治理能力,保障煤矿的安全生产。

3 结 语

本文在收集某煤矿历史隐患数据基础上,建立了LDA主题模型与ARIMA预测模型,并在该煤矿进行了相关应用研究,得出如下结论:

1) 利用已构建的LDA主题模型对煤矿非结构化安全隐患信息进行了主题信息挖掘,揭示了隐患内容与隐患类型之间的关系。本文确定了该煤矿14类较容易发生事故的隐患,并根据每个主题对应特征词,总结出14类事故隐患对应的排查要点,为煤矿现场管理人员提供参考并提升煤矿隐患排查治理能力。

2) 运用ARIMA算法模型对该煤矿近2个月的生产设备类隐患进行了趋势预测,从图中可以看出,近两个月的隐患数量有增加的趋势,需要煤矿的相关管理人员加强隐患方面的培训力度,加大煤矿安全隐患的管理,预防和控制生产设备隐患的发生,保障煤矿安全生产的顺利进行。

猜你喜欢
特征词隐患煤矿
隐患随手拍
隐患随手拍
互联网安全隐患知多少?
隐患随手拍
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
大型煤矿自动化控制系统的设计与应用
面向文本分类的特征词选取方法研究与改进
上半年确定关闭煤矿名单513处
去年95.6%煤矿实现“零死亡”