基于改进门控循环神经网络的采煤机滚筒调高量预测

2024-03-15 03:27齐爱玲王雨马宏伟

工矿自动化 2024年2期

齐爱玲，王雨，马宏伟

（1.西安科技大学计算机科学与技术学院，陕西西安 710054；2.西安科技大学机械工程学院，陕西西安 710054）

0 引言

无人化智能开采是煤矿智能化建设的中心目标[1]。当前煤矿智能化建设过程中，综采工作面的智能化水平制约着煤矿智能化向更高水平发展[2]。作为综采工作面的核心设备之一，采煤机的截割精度直接关系到采煤的质量和效率。随着开采工作向着少人化、无人化的目标迈进，采煤机滚筒自动调高技术成为亟需攻克的技术难题。采煤机滚筒自动调高是指根据截割作业中工作面工况的变化自动对截割滚筒高度进行调整，以避免截割顶底板岩石。

截割轨迹与煤岩边界线的拟合程度对于截割精度具有关键性影响[3]，因此煤岩界面的精准识别可作为采煤机滚筒自动调高的依据。针对煤岩界面识别问题，学者们提出了基于反射光谱[4]、红外成像[5]等的直接识别方法，但由于井下环境复杂恶劣，这些方法无法实现常态化精准应用[6-8]。为解决这些问题，间接感知煤岩界面的记忆截割技术被提出。传统的记忆截割技术将重复再现目标轨迹作为控制目标，不考虑轨迹本身的合理程度，虽然提高了采煤机的自动化程度，但是对于顶板起伏差异较大的煤层，仍需要人工调整截割路径[9]。为减少人工干预频率，田立勇等[10]提出了一种基于灰色预测理论的采煤机截割路径规划方法，提高了采煤机滚筒适应煤层的能力。王廷栋[11]提出一种基于遗传算法的采煤机截割路径优化方法，使截割过程更加平稳。基于修正策略的截割轨迹预测方法虽然在一定程度上提高了截割精度，但是当前状态参数传递及计算需要时间，并且特征参数容易冗余，容易导致采煤机无法及时调整姿态并快速适应煤层变化，不可避免会截割到岩石。这些缺陷促使采煤机自适应截割技术从识别走向预测，最好在当前位置获知下一段煤层边界状况。

近年来人工智能等前沿技术被应用到采煤机截割轨迹预测中，支持向量机、神经网络等智能技术可自动从具有多特征参数的轨迹数据中学习到复杂的特征表示，捕捉轨迹数据中的时序信息、空间关系及其他相关特征，从而提高截割轨迹预测的准确性和鲁棒性[12-14]。煤层作为空间分布的一种层状地质实体，有较强的全局规律性。综采工作面动态生产时的采煤机历史截割轨迹数据可反映煤层分布形态随煤层空间几何形态变化而不断变化的趋势，这些数据实质上是时间序列数据[15]，并且具有较强的波动性和非线性。为进一步提高预测效率及精度，研究人员尝试使用时间序列预测技术提取截割轨迹中所隐含的特征信息，采用长短时记忆（Long Short-term Memory，LSTM）神经网络构建采煤机截割轨迹预测模型，取得了较好的效果，但仍存在输入参数过多、计算成本增加等问题[16-18]。

在实际采煤过程中，煤层起伏不定，需要进行迭代式预测，为保证误差不会逐级累计，对预测模型的实时性提出了较高要求。因此，本文提出一种用因果卷积改进的门控循环神经网络（Causal Convolution Gated Recurrent Unit， CC-GRU），并基于CC-GRU实现采煤机滚筒调高量预测。首先，采用滑动窗口方法将输入数据划分为连续、大小可调的子序列，同时处理横向、纵向的特征信息；其次，构造CC-GRU预测模型，对输入数据进行双重特征提取和双重数据过滤，其中因果卷积模块使用卷积核获取输入特征图的局部特征表示，以减少计算冗余，门控循环神经网络（Gated Recurrent Unit，GRU）处理迭代序列数据，以发挥其捕捉长期依赖关系的能力；最后，通过全连接层输出最终预测结果。

1 采煤机滚筒调高量预测方法

1.1 模型选择

采煤机滚筒调高量预测可定义为一个多元时间序列预测问题。多元时间序列数据具有高维度和复杂性，单一模型无法捕捉到数据中的所有复杂结构和关系，会导致模型在预测未来时间序列数据时精度不足，所以需将多个模型融合或多个结构层叠加来克服这一缺陷。因此，本文采用因果卷积叠加递归神经网络结构的方式进行特征提取，尽可能地让模型挖掘到数据的多形态、多状态特征。

传统预测方法忽略了采煤机截割轨迹数据的时序性，不能根据数据的差异性为不同时刻的数据赋予相应权重。递归神经网络由于本身结构与时间序列数据特性的契合性，将其用于搭建预测模型可大幅提高预测精度，但所需参数较多，预测效率低。因果卷积捕捉序列数据的依赖关系，采用并行计算方式同时处理多个时间步的信息，解决了递归神经网络逐个时间步顺序处理的低效问题。

本文融合时域卷积网络（Temporal Convolutional Network，TCN）及GRU构建CC-GRU预测模型。通过一维因果卷积对历史数据提取局部时序特征，GRU利用门控机制对卷积得到的特征进行序列化建模，捕捉元素之间的长期依赖关系。与单一模型相比，CC-GRU预测模型减少了过拟合的风险，提高了模型的泛化能力，使预测结果更加稳定可靠。

1.2 预测流程

基于CC-GRU的采煤机滚筒调高量预测流程如图1所示。首先，获取原始采高数据，对数据进行归一化处理，然后采用滑动窗口方法划分数据，构建输入数据样本。然后，将样本划分为训练集和测试集，训练集数据用于训练CC-GRU预测模型学习时序特征，测试集数据用于测试最终训练完成的模型性能。最后，输出模型预测结果，并进行反归一化处理，得到真实的预测结果。

图1 基于CC-GRU的采煤机滚筒调高量预测流程Fig.1 Prediction process of height adjustment of shearer drum based on causal convolution gated recurrent unit （CC-GRU）

2 CC-GRU预测模型

CC-GRU预测模型结构如图2所示。通过一维因果卷积层有效提取序列数据中的局部关联特征，并将特征映射到多维度特征向量。通过多层门控机制对特征序列进行更精细的特征提取，捕获全局长期依赖关系。经过因果卷积层第1次特征过滤后，数据杂质显著减少，为后续特征提取和数据过滤提供了有利条件。使用GRU层对剩余特征进行选择性保留，完成第2次特征过滤。CC-GRU的双层结构实现了多次特征提取和多次数据杂质过滤，有效提升了网络性能。

图2 CC-GRU预测模型结构Fig.2 Structure of CC-GRU prediction model

2.1 输入层

影响当前采样点采高的因素除不同刀同位置采样点的高度数据外，还有邻近采样点的高度数据。如果将所有数据无差别地输入到单个模型中进行训练，不能有效提取出截割轨迹纵向的时间特征及横向相邻数据之间的相关特征，因此，采用滑动窗口方法进行预处理。使用固定大小的滑动窗口沿着时间序列滑动，截取历史数据。对原始数据进行预处理后，得到输入样本：

式中：Xi(i=1,2,···,T)为采煤机进行第i刀截割时的高度序列；T为输入序列中的截割总刀数；xij为第i刀的第j个采样点的高度；s为1刀的总采样点数。

2.2 因果卷积层

2018年，Bai Shaojie等[19]提出一种用于分析时间序列数据的神经网络——TCN。TCN通过扩展因果卷积和残差模块并行处理输入序列，不仅避免了梯度爆炸和梯度消失等现象，提高了模型训练速度，而且有效抑制了循环神经网络中的误差累计问题，在时间序列数据预测任务中表现出良好性能。TCN由多个残差模块组成，残差模块中最为重要的扩张因果卷积结构如图3所示。

图3 扩张因果卷积结构Fig.3 Causal dilated convolutional structure

对于输入时间序列X，通过因果卷积进行特征提取，即滑动卷积核F=(f1,f2,···,fK)（fk为位置k处的权重，k=1,2,···,K，K为卷积核尺寸）分别与输入序列的不同部分进行卷积运算，得到的卷积值为

式中：d为扩张因子，当d=1时，对输入数据进行常规因果卷积运算，当d≠1时，对输入数据进行扩张因果卷积运算。

为更好地捕捉序列中的长期依赖关系，在卷积层后添加残差连接：

式中ℓ(·)为ReLU 激活函数。

残差连接将输入序列的信息直接传递到卷积层的输出中，能帮助网络更好地学习并保留输入序列的重要特征，同时，使用非线性激活函数可增强模型的非线性建模能力。

2.3 GRU层

2014年，K.Cho等[20]提出更易于计算的GRU。与LSTM相比，GRU需要的训练参数更少，收敛速度更快，并且可在时间序列数据有限的情况下降低模型过度拟合的风险[21]。GRU单元主要由重置门和更新门组成，结构如图4所示。重置门决定前一时刻与当前时刻输入的结合程度，更新门决定前一时刻状态信息在当前时刻中的保留程度。将作为GRU神经网络的输入，GRU单元第t个时间步的输入为，输出为ht。

图4 GRU结构Fig.4 Structure of gated recurrent unit

首先，将当前时刻输入与前一时刻隐藏状态ht-1的拼接矩阵输入到GRU单元中，得到t时刻重置门门控状态rt及更新门门控状态ut：

式中：σ(·)为Sigmoid激活函数；Wr，Wu分别为重置门与更新门的权值矩阵； []为向量拼接操作符号；br，bu分别为重置门与更新门的偏置向量；p为激活函数自变量。

然后，重置门可对ht-1选择性地重置，决定上一时刻信息的保留程度。将ht-1经过重置门处理后与相加，并应用tanh激活函数得到当前时刻候选状态：

式中：ϕ(·)为tanh激活函数；Wh为候选状态的权值矩阵；⊙为逐元素乘法符号；bh为对应的偏置向量。

最后，GRU单元结合ut和处理当前时刻信息，结合I-ut（I为单位矩阵）和ht-1处理历史时刻信息，两者相加得到当前时刻GRU单元的输出：

GRU能够有效捕获长期序列中的关键信息。在每个时刻，GRU都能够动态保留和更新相关信息，并传递到网络的下一个时间步，直到模型处理完整个序列。最后一个时间步的隐藏状态hT会作为输入传递给全连接层，通过线性映射产生最终预测结果。

3 实验准备与评价指标

3.1 实验环境

实验使用的硬件配置为Intel（R） Core（TM） i5-8265U CPU @ 1.80 GHz，运行内存为8 GiB。实验过程基于深度学习Pytorch框架，使用的编程语言为Python。

3.2 实验数据及预处理

为验证CC-GRU预测模型的有效性，选用实际截割数据进行实验。本文所使用的数据是某矿采煤机实际截割过程中记录的数据，即采煤机多次截割过程中在各采样点的前滚筒高度。采样间隔为3 m，采煤机截深为0.8 m，每一次走刀包含40个采样点。由于已知数据较少，采用克里金插值算法对实际数据进行插值，得到的插值曲面如图5所示。

图5 插值曲面Fig.5 Interpolation surface

由于原始采高数据中存在噪声，且不同截割循环采高数据没有统一标准，所以在进行采高预测前需要对原始数据进行数据预处理，以提高数据的质量和可靠性。数据的预处理主要包括数据标准化、基于滑动窗口构造样本数据2个部分。

3.2.1 数据标准化

为消除特征间单元差异和尺度差异的影响，需对采煤机采高数据进行归一化处理，使采高数据限定在[0，1]区间。本文采用min-max归一法进行采高数据归一化，归一化公式为

式中：z*为归一化后的数据；z为归一化前某刀某采样点的截割滚筒高度；zmin为训练集中最小采高；zmax为训练集中最大采高。

为评估模型性能，需对模型输出的预测结果进行反归一化处理，即将预测值还原到原始数据的尺度上，以计算真实误差。反归一化公式为

式中y*为反归一化后的数据；y为模型直接输出的预测值。

3.2.2 滑动窗口

在实际生产中，采煤机需要在工作面进行循环截割，且每刀截割的相隔时间一般较短。为了保证采煤机工作的实时性，预测模型需对截割轨迹进行连续预测。因此，选择在预测前根据滚动方式构造多元样本数据。

在原始高度序列数据H={H1,H2,···,HT}中，Hi为第i刀40个采样点的截割滚筒高度数据。设置滑动窗口大小为m，将Hi作为目标输出，前m刀数据{Hi-m,Hi-m+1,···,Hi-1}作为输入，以此构建1个样本，而后将窗口后移，即将样本输入中的第1个向量Hi-m剔除，加入第i刀数据Hi，则输入为{Hi-m+1,Hi-m+2,···,Hi}，输出为第i+1刀数据Hi+1，构建1个新的样本，依此类推，构建所需样本集合。每组样本中包含m刀输入数据及对应的1刀输出数据。所构建的样本形式为

3.3 实验评价指标

为准确评估模型的预测效果，采用平均绝对误差（Mean Absolute Error，MAE）、平均绝对百分比误差（Mean Absolute Percentage Error，MAPE）、均方根误差（Root Mean Squared Error，RMSE）、决定系数R2作为评价指标，其计算公式分别为

式中：n为测试样本数；yj为第j个样本的实际值；为第j个样本的预测值；为样本实际值的平均值。

4 实验结果及分析

4.1 参数对比实验

CC-GRU涉及的超参数主要包括网络层数、隐层节点数等，不同的超参数对于训练效果有较大影响。依据经验将隐层节点数的搜索范围限制为[16，64]。首先通过对比实验确定CC-GRU的网络层数及隐层节点数。设定模型迭代次数均为50，在相同训练数据集下选取3个指标值为对照标准。不同参数下CC-GRU模型的预测结果见表1。

表1 不同参数下CC-GRU模型的预测结果Table 1 Prediction results of CC-GRU model under different parameters

由表1可知，在网络层数为2且每个隐层节点数为32时，模型各项评价指标值均相对较低，MAE为43.80 mm，MAPE为1.90%，RMSE为50.35 mm，R2为0.65，表明该模型预测效果最佳。从整体趋势来看，随着各隐层节点数的增加，预测误差呈现先增后减的趋势。这是由于网络结构过于简单时可能导致欠拟合，而过于复杂时又会出现过拟合问题。并且，如果各隐层节点数相同，网络层数增加反而会降低模型性能。

不同参数下CC-GRU模型的预测结果对比如图6所示。可看出，隐层节点数为（32，32）（第1层、第2层节点数均为32）时，全局差异波动较小，预测值更符合实际滚筒调高量变化趋势。

图6 不同参数下CC-GRU模型的预测结果对比Fig.6 Comparison of prediction results of CC-GRU model under different parameters

4.2 模型对比实验

为对比CC-GRU模型与其他模型的性能差别，设置以下实验：在相同实验条件下，设置滑动窗口大小为4，采用LSTM，GRU，TCN，CC-GRU在同一数据集下对滚筒调高量进行预测。不同模型预测结果对比如图7所示。由图7可知：TCN模型的预测效果最差，所得预测值均低于实际值；GRU及LSTM模型效果次之，在采样点为[20，30]的折线中可看出明显偏差；CC-GRU模型预测结果最接近实际值，更符合变化趋势。

图7 不同模型预测结果对比Fig.7 Comparison of prediction results of different models

不同模型的评价指标见表2。分析表2可知，与其他模型相比，CC-GRU模型预测效果最佳，误差较小且决定系数较高。CC-GRU模型相较于LSTM模型，MAE降低了14.1%，MAPE降低了13.9%，RMSE降低了21.1%，决定系数提高了78.9%；相较于GRU模型，MAE降低了9.2%，MAPE降低了9.4%，RMSE降低了15.5%，决定系数提高了69.3%；相较于TCN模型，MAE降低了28.5%，MAPE降低了28%，RMSE降低了24.2%，决定系数提高了99.6%。这表明CC-GRU模型具有较强的鲁棒性，泛化性能较好。

评价指标对比如图8所示。可看出，TCN模型的MAE较LSTM，GRU模型明显增大，说明循环神经网络更能关注到序列的关键特征信息；CC-GRU模型的决定系数最高，说明CC-GRU模型的拟合能力较强，能够很好地解释变化趋势。

图8 评价指标对比Fig.8 Comparison of evaluation indicators

不同模型预测时间对比见表3。由表3可知，与其他模型相比，CC-GRU模型的预测速度较快，每次预测时间仅为0.17 s，可满足采煤机实际工作需求。相较于LSTM，GRU模型，其训练时间分别减少了82.2%，80.5%；相较于TCN模型，其训练时间增加了103.3%，但预测精度取得了较大提升。

表3 不同模型预测时间对比Table 3 Comparison of prediction time of different models

TCN模型可快速处理多个时间步的信息，但在每个时间步上只在局部区域内提取特征，对于具有复杂长期依赖关系的序列，无法捕捉到所有的相关信息；循环神经网络相比TCN网络结构更为复杂，更适于处理长序列依赖关系，其中GRU比LSTM所需要的参数更少，但训练阶段计算复杂度过高，时间成本增加；具有双层结构的CC-GRU模型既关注序列中的局部特征，又可捕捉序列的长期依赖关系，在计算效率和性能之间取得了平衡。

实验结果表明，CC-GRU模型可更好地提取学习滚筒高度的非线性变化特征，能够精准、快速进行预测，并取得良好的预测效果。

5 结论

1）提出了一种基于CC-GRU的采煤机滚筒调高量预测方法。通过因果卷积提前聚焦序列的局部时序特征，并行处理输入序列，输出特征向量，并将其输入到多层GRU中对非线性和非平稳数据进行拟合。通过CC-GRU的双层结构实现了双重特征提取和双重数据杂质过滤，在保证精度的同时，满足了实时性要求。

2）使用真实数据对采煤机滚筒调高量进行预测，CC-GRU预测模型的MAE为43.80 mm，MAPE为1.90%，RMSE为50.35 mm，决定系数为0.65，预测时间仅为0.17 s。实验结果表明，该模型可快速、有效预测滚筒调高量。

3）与LSTM模型、GRU模型、TCN模型进行对比实验，结果表明，CC-GRU预测模型的MAE，MAPE，RMSE均低于其他模型，决定系数更高，预测时间更短，表明CC-GRU预测模型具有较高的可靠性，能够在采煤机滚筒调高量预测中提供更为准确的结果。