基于ERNIE-BiGRU-CRF模型的煤矿安全隐患命名实体智能识别研究

2024-03-06 07:52刘飞翔李泽荃赵嘉良
煤炭工程 2024年2期
关键词:煤矿安全命名实体

刘飞翔,李泽荃,赵嘉良,李 靖

(1.华北科技学院 矿山安全学院,北京 065201;2.华北科技学院 经济管理学院,北京 065201;3.中国矿业大学(北京)能源与矿业学院,北京 100083)

作为煤炭生产和消费大国,煤矿安全开采一直受到国家重点关注。由于全国大部分矿区地质条件复杂多变,在煤炭开采过程中经常伴随着各类灾害风险,如果企业安全管理不到位、政府监管不及时可能会出现严重安全生产事故,如今年2月22日位于内蒙古阿拉善左旗的新井煤业发生了大面积边坡坍塌事故,导致50多人死亡。该煤矿为露天矿,一般情况下发生重特大事故的可能性相对较小,却造成了严重的人员伤亡。据统计,在2018—2022年的5年间,全国因煤矿事故造成的死亡人数达1300人,且重大特大事故时有发生,可以看出我国的煤矿安全生产形势依然严峻,煤矿企业的安全管理工作仍是重中之重。

对于煤矿企业的安全监管,在制度层面国家矿山安全监察局等相关部门出台了一系列规定,如建立煤矿安全生产标准化管理体系、执行严格的安全生产管理制度等等,但由于执行不到位等原因,这些制度的实施并未从根本上遏制事故的发生。近年来,随着“智慧矿山”的提出和推进,物联网、云计算、大数据、人工智能等技术逐渐被应用到煤矿安全管理工作中,其中以文本挖掘为代表的自然语言处理技术为提升煤矿安全管理水平提供了新思路。对煤矿安全专业知识和日常隐患排查记录进行文本挖掘,抽取其中关键信息,可以帮助煤矿安全管理人员系统掌握隐患分布规律、快速获取风险信息并精准定位事故的潜在因素,进而采取应对措施以避免事故的发生。而在信息抽取过程中,命名实体识别是重要环节,其识别效果决定着信息抽取的准确性。因此,进行煤矿安全隐患的命名实体识别研究,不仅可以帮助安全管理人员获取隐患重要信息,也可以实现对煤矿事故、人员、设备、操作及环境的智能化管理。

1 相关研究

命名实体识别(NER)是信息抽取的基础任务,指在从给定的一段文本中识别出具有特定类型的专有名词,比如:人名、地名、组织名称等。自Rau[1]于1991年首次提出命名实体识别任务以来,大概经历了三个阶段。

第一阶段NER任务主要是基于词典和规则的方法。YANG等人[2]通过手工构造词典,在JNLPB公共数据集上取得68.48%的F1值;COHEN[3]通过结合5个数据库来丰富生物医学领域词典内容,大大提升了实体识别性能;Narayana-Swamy等人[4]基于手工设计规则模板提高了蛋白质名称检测的精度;闫丹辉等人[5]根据越南语语言特点,制定出越南语命名实体识别规则,达到了90%以上的识别准确率。然而,此类方法对人工专业知识水平要求较高且模型的泛化性较差,目前应用范围相对较窄。

第二阶段的NER任务是基于统计机器学习的方法。主流的机器学习算法有隐马尔可夫模型(HMM)、支持向量机(SVM)和条件随机场(CRF)等模型。乐娟等人[6]采用HMM模型标注文本,在识别京剧机构名称能达到99%的准确率;薛征山等人[7]结合词性特征和校正规则,采用HMM算法准确的识别出中文旅游景点。LEE等人[8]提出一种基于支持向量机的两阶段命名实体识别器,在GENIA语料库上进行实体边界识别,F1值达到了74.8%。宓林晖等人[9]基于CRF模型对历年临床医嘱数据进行实体识别研究工作,提高了临床医疗的工作效率。

第三阶段的NER任务主要依赖深度学习技术。基于深度学习的方法通常将命名实体识别视为序列标注任务来处理,目前主流的深度学习神经网络有循环神经网络(RNN)、卷积神经网络(CNN)、Transformer模型及它们的变种。为了学习上下文距离依赖关系,HAMMERTON[10]首次将LSTM(RNN神经网络变种)应用到命名实体识别任务中。考虑到单向获取序列信息有限,LAMPLE等人[11]提出了双向长短时记忆网络结构,即BiLSTM,通过向前向后两个方向对句子进行分析,后接入CRF来约束实体标签,命名实体识别的性能得到了显著提升。为了能够充分利用计算机GPU的并行计算能力,并且增加卷积核的感受野,STRUBELL等人[12]提出了迭代扩张卷积神经网络(IDCNN)结构,在保持与BiLSTM-CRF模型相当准确性的同时,实现了8倍更快的测试速度。2017年,谷歌提出了Transformer模型[13],该模型结构既能解决RNN并行能力弱的问题,又能解决CNN无法捕获长距离依赖的问题。随后基于Transformer结构的BERT[14]、ERNIE及ALBERT等预训练语言模型成为命名实体识别主流方法。如张智源等人[15]提出一种基于BERT和多窗口门控CNN的电机领域命名实体识别模型,利用BERT模型动态微调电机领域文本字向量,所提模型F1值高达90.16%。王权与等人[16]在词向量的表示学习层采用BERT预训练语言模型实现文本特征的迁移学习,利用BiGRU-CRF结构提取上下文特征及标签解码,在小规模岩土工程语料上进行实体识别,取得了精确率为90.94%,召回率92.88%,F1值91.89%的优异效果。而在安全隐患领域,艾新波等人[17]提出一种适用于安全隐患描述的ERNIE-CRF序列标注模型,发现ERNIE-CRF模型比ERNIE模型在F1指标上有0.3%的优化。潘理虎等人[18]采用ALBERT-IDCNN-CRF模型对煤矿事故案例进行了实体识别研究,该模型在有效提升识别性能的同时减少了训练时间。王向前等人[19]通过建构煤矿事故领域词典,将ALBERT语言模型、BiLSTM和CRF算法结合,对比BiLSTM-CRF、BERT-BiLSTM-CRF等三组基线模型,模型性能评价指标均有所提高。

目前中文命名实体识别技术已相对成熟,在一些通用领域,如金融、医学、新闻等领域已经达到很好的识别效果,但由于煤矿安全隐患文本在语言、术语和结构等方面存在较强的领域特性,并且缺乏训练模型所需的语料库,所以基于深度学习技术的命名实体识别研究工作还相对较少。为了丰富煤矿安全领域的命名实体识别方法,论文基于ERNIE-BiGRU-CRF模型对煤矿安全隐患文本开展了命名实体识别研究。

2 煤矿安全隐患文本命名实体标注方法

2.1 煤矿安全隐患实体类别定义

由于安全隐患文本内容多是根据煤矿领域相关标准规范记录,因此基于相关标准规范对煤矿安全隐患实体类别进行定义具有通用性。依据《煤矿安全规程》(2022版)、《煤矿重大事故隐患判定标准》(2021版)以及各类隐患防治细则,对隐患内容描述中的有关术语进行实体类别定义,具体定义说明见表1。

表1 煤矿安全隐患实体定义说明Table 1 Definition of hidden danger entities in coal mine

2.2 煤矿安全隐患实体标注方法

命名实体识别有BIO、BIOSE和BMESO等多种标注策略。本实验采取最常用的BIO标注方式,其中B表示实体的起始位置,I表示实体的中间或结束位置,O表示为不关注的字。根据上述实体类别定义,将实体的第一个字符标注为B-(实体类别),实体的其余字符表示为I-(实体类别),非实体字符均标注为O。采用YEDDA[20]工具,由煤矿安全领域专家进行人工标注,标注样式如图1所示。最终形成的15个实体标签说明见表2。

图1 标注样式Fig.1 Annotation style

表2 实体标签说明Table 2 Entity labels description

3 煤矿安全隐患命名实体识别模型

3.1 模型结构

煤矿安全隐患命名实体识别模型如图2所示,其结构共包括3个模块,分别为ERNIE词向量表示层、BiGRU语义特征提取层和CRF标签解码层。具体计算过程如下:文本输入模型后,首先利用ERNIE预训练语言模型对文本进行字符编码,得到具有字向量和位置向量的词向量表示;然后利用BiGRU结构提取文本向量序列的上下文语义信息;最后将经过全连接层的句子序列输入到CRF层进行全局优化标签解码,输出煤矿安全隐患文本描述的实体类别。

图2 ERNIE-BiGRU-CRF模型结构Fig.2 Structure of ERNIE-BiGRU-CRF model

3.2 ERNIE模型

ERNIE[21]是百度于2019年提出的语义表示模型,它通过词语级别和实体级的掩码策略将训练数据中的词法结构、语法结构和语义信息进行统一建模,增强了通用语义的表示能力。ERNIE模型具有双向多层Transformer编码器结构,而Transformer编码器的核心是多头注意力机制,单个注意力机制目标函数为:

式中,Q,K,V均为输入字向量矩阵,dk为向量维度。

另外,编码器采用了“多头”机制,将多个注意力值进行拼接和线性映射,得到该层的拼接输出结果y。

y=concat(H1,H2,…,Hn)W0

(3)

3.3 BiGRU层

上下文特征提取层采用的是BiGRU结构。BiGRU为双向的GRU,其是在LSTM基础上简化出来的一类循环神经网络。GRU内部结构与LSTM相似,都是为了解决文本序列长期记忆问题而设计,但GRU模型参数更少且可以有效解决长序列中反向传播中梯度消失或爆炸问题,具有结构简单、训练效率高的优点。GRU细胞单元[22]主要由更新门zt和重置门rt两部分组成,t时刻输入向量xt,最终输出隐藏状态为ht,计算过程为:

zt=σ(Wz[ht-1,xt]+bz)

(4)

rt=σ(Wr[ht-1,xt]+br)

(5)

3.4 CRF层

BiGRU层能根据文本的词句特征进行标签解码,但无法处理标签之间的依赖性问题,即容易出现不合理的标签序列。通过加入CRF层,可以将给定的随机变量输入求解并输出随机变量的条件概率分布,通过考虑标签之间的相邻关系,获得全局最优标签序列,以改善预测标签出现的不合理情况。CRF是一种判别式条件概率分布模型。对于输入序列X={x1,x2,…,xn},经过上述BiGRU层标注的句子序列Y={y1,y2,…,yn},其条件概率表示为:

式中,Pxi,yi为单词xi映射到标签yi的概率,构成状态矩阵P;Ayi,yi+1为标签yi到标签yi+1的转移概率,构成转移矩阵A。预测标签序列Y进行归一化后的概率公式为:

4 实验过程及分析

4.1 数据预处理

利用在煤矿隐患排查信息系统上收集到的1600条煤矿隐患排查记录,通过对文本进行语法检查、去重去噪处理以及格式转换,构造出1500条煤矿安全隐患命名实体标准数据集。考虑到模型是小样本学习,将标准数据集按照8∶2的比例划分为训练集和测试集。经统计,各实体数量分布见表3。

表3 各实体数量统计Table 3 The statistic of every entity

4.2 实验环境与超参数设置

实验环境为PaddlePaddle深度学习框架,ERNIE的权重模型为ernie-3.0-base-zh版本,根据测试,网络模型的最佳超参数设置如下:最大句子长度为128,GRU隐藏层维度为256,批大小为32,学习率为2,迭代次数为50,优化器为AdamW。另外,论文采用精确率(Precision)、召回率(Recall)和F1值作为模型性能评价指标。另外,为评价ERNIE-BiGRU-CRF模型的准确性,将其与BERT、BERT-CRF、BiLSTM-CRF、BiGRU-CRF、BERT-BiGRU-CRF模型进行对比验证。

4.3 实验结果分析

4.3.1 模型收敛对比

在模型训练过程中,损失函数曲线可以真实反映预测值和真实值的差距,即模型能否充分学习到文本中的序列标注知识。6种模型在训练集上损失值随迭代次数的变化情况如图3所示。由图3可知,BERT模型收敛的速度最快,BERT-CRF模型次之,说明CRF模块的加入会降低序列标注模型损失收敛的速度。在BERT-CRF模型的基础上加入BiGRU模块以及在BiGRU-CRF模型上嵌入ERNIE字向量模型表示层,学习速度进一步变慢,说明序列标注模型的损失收敛速度会随模型结构的复杂度而逐渐变慢。另外,可以看出BiLSTM-CRF和BiGRU-CRF模型相比于其他模型在训练开始时损失值较大,说明预训练语言模型更能准确的学习到序列标注知识。在第3次迭代时,BiGRU-CRF模型的收敛速度明显快于BiLSTM-CRF模型,验证了GRU神经单元通过加入重置门机制显示出高训练效率优点。

图3 不同模型损失函数变化曲线Fig.3 The loss of every model

4.3.2 模型性能对比

在训练集上学习到模型的最佳权重后,在测试集上评估各模型的性能。为保证实验的严谨性,进行三次随机实验并取各评价指标平均值,具体结果见表4。以BiLSTM-CRF为基线模型,BiGRU-CRF模型的F1值提高了1.55%,说明BiGRU-CRF模型在提高模型训练速度的同时,也提高了模型的实体识别准确率。相比于BiLSTM-CRF模型,BERT、BERT-CRF、BERT-BiGRU-CRF和ERNIE-BiGRU-CRF4种模型的F1值分别提升了8.42%,8.67%,9.12%,9.83%,说明基于BERT和ERNIE的预训练语言模型能大幅提升实体抽取的准确性。另外,ERNIE-BiGRU-CRF模型较于BERT-BiGRU-CRF模型精确率和F1值分别提高了0.38%和0.71%,说明基于知识增强的ERNIE模型在表征煤矿安全隐患文本词向量时要优于BERT模型。

表4 模型性能实验结果对比Table 4 The comparison of different models performance

测试集部分实体识别结果见表5。序号1、3、4预测结果与真实标注结果完全相同;序号2在实际标注时,“温度”是“Attribute”实体类别,“传感器”是“Thing”实体类别,而模型将“温度传感器”识别为“Thing”,差别也相对较小。同样可以看出,ERNIE-BiGRU-CRF模型在序列标注任务上有着可观的效果。

表5 预测结果Table 5 The prediction results

4.3.3 消融实验

为了研究各模块对ERNIE-BiGRU-CRF模型性能的影响程度,在ERNIE模型的基础上分别加入CRF层和BiGRU层,并在煤矿安全隐患数据集上进行对比实验,实验结果见表6。

表6 消融对比实验结果Table 6 The comparison of ablation experiment

ERNIE-CRF模型比ERNIR模型在F1指标上有0.13%的提升,同样BERT-CRF模型比BERT模型在F1指标上也有0.25%的提升,验证了CRF模块在实体抽取时能够加强标签间的依赖关系,可有效获得全局最优序列。另外,在ERNIE-CRF模型上引入BiGRU模块,ERNIE-BiGRU-CRF模型的F1值提高了1.09%,表明BiGRU结构可以更好的捕获上下文语义依赖关系,对实体识别产生了积极影响。

5 结 论

1)根据煤矿行业相关标准规范,并结合领域知识,将收集到的煤矿安全隐患记录进行错误检查以及去重去噪处理,形成1500条煤矿安全隐患文本集。另外,根据自定义实体类别,采用YEDDA标注工具和BIO标注规范对煤矿安全隐患文本进行了实体标注。

2)针对煤矿安全领域非结构化文本上下文语义复杂、实体抽取困难等问题,基于ERNIE-BiGRU-CRF算法模型在自建的煤矿安全隐患数据集上开展了命名实体识别研究。计算结果表明,比BiLSTM-CRF基线模型,精确率、召回率和F1值分别提高了6.85%、13.74%和9.83%,获得了较好的实体识别效果。

3)虽然ERNIE-BiGRU-CRF算法实体识别效果最优,但其识别性能还有较大的提升空间,可以考虑采用主动学习、增加煤矿安全隐患标注语料或构建领域词典等策略来提高模型的识别效果。另外,ERNIE-BiGRU-CRF模型训练收敛速度较慢,后续研究可以考虑对模型结构进行改进,以提高训练速度。

猜你喜欢
煤矿安全命名实体
命名——助力有机化学的学习
前海自贸区:金融服务实体
强化忧患意识,推动全国煤矿安全生产形势持续稳定向好
抓煤矿安全基础建设四大支柱
有一种男人以“暖”命名
为一条河命名——在白河源
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
关于煤矿安全事故责任追究问题的思考