岳刘杰,齐庆杰
(1.国能神东煤炭集团乌兰木伦煤矿,内蒙古 鄂尔多斯 017205;2.辽宁工程技术大学 矿业学院,辽宁 阜新 123000;3.中国煤炭科工集团应急科学研究院,北京 100013)
瓦斯灾害是煤矿灾害中最为严重的一种,其破坏性、危害性极大。因此,加强瓦斯灾害预测预警技术的研究对提高瓦斯灾害预测控制能力和发展数字煤矿具有重要意义[1]。近年来,对于瓦斯浓度的预测多采用时间序列的动态预测方法,而矿井瓦斯浓度数据是非线性的,并且受许多环境因素和采矿技术的影响,时间序列方法不能将这些因素纳入考虑,具有一定的局限性[2]。随着理论的完善发展,遗传算法[3]、模糊数学[4]、混沌理论[5]、支持向量[6]、灰色理论[7-8]、神经网络[9-10]等算法被用于识别或估算瓦斯的异常情况,并取得很好的预测效果。但神经网络、遗传算法及模糊数学等算法基于大样本数据,并不断进行学习和迭代计算,建模时间较长等,导致不能实时预测瓦斯浓度[11]。
上述列出的预测方法均基于多个影响因素去预估所研究的因变量,而各个影响因素间可能存在某种相关性或函数关系,即多重共线性问题。这些方法不能很好地避免或者解决各个因素间的多重共线问题。鉴于此,基于传统的多元线性回归分析方法,验证多元回归分析预测瓦斯浓度的可行性,并诊断各个自变量间是否存在多重共线性问题,采用岭回归分析方法解决可能出现的共线问题,分析各个影响因素对瓦斯浓度的影响性大小,进而准确预测瓦斯浓度。
瓦斯灾害是由地壳应力、高瓦斯、煤构造性能、地质构造、煤层厚度、煤体构造和围岩特征等多种因素决定的[12]。在上覆压力作用下,煤层越深瓦斯越不易逸出,同一煤层,煤层越厚,瓦斯含量越高,随着开采推进,瓦斯涌出量增加。在同一断面下,风速越大、风流中瓦斯浓度越小。随着开采技术的发展,煤日产量不断增加,这些因素均会影响瓦斯浓度大小。因此,选取煤层深度、厚度、瓦斯含量、井下风速和煤日产量5个影响因素分析预测瓦斯浓度。获得习水富泓煤矿11202综采面的瓦斯浓度及5个影响因素的实测数据,经过拆除异常值,得到10组数据样本,见表1。
表1 样本数据Table 1 Sample data
针对多因素组合模型,回归分析是一种较好的方法,多元线性回归分析则是最基本、简单的回归分析方法。瓦斯浓度受多个因素影响,因此,在理论上,可以用多元线性回归方法分析瓦斯浓度与影响因素间的关系,筛选出最优组合去预估因变量,并建立预测模型。其回归模型见式(1)[13]。
Y=a0+a1x1+a2x2+…+aixn
(1)
式中,Y为因变量;xn为n个自变量;ai为各个自变量对应的回归系数。
利用SPSS软件对瓦斯浓度和各个影响因素进行多元线性回归分析,选用输入回归模型、输入瓦斯浓度为因变量,煤层深度、厚度、断面风速、瓦斯含量、煤日产量为自变量。分析结果见表2和表3。
表2 模型汇总Table 2 Model summary
表3 模型参数Table 3 Model parameters
由表2可知,模型的相关系数R=0.999,调整后的相关系数R2=0.996,表明此模型有意义,该模型拟合程度较高,各个因素整体与瓦斯浓度具有较好的线性相关性,多元线性回归模型可用于瓦斯浓度预测。在模型计算时检验了残差项的自相关性,即D-W(Durbin-Watson)检验。其值接近0或者4时,表明残差有自相关性,而D-W值与2非常接近时,表明不存在(一阶)自相关,模型设计越好。表2中的D-W值为1.665,自相关性较弱。
根据表3中多元线性偏回归系数,可得多元线性回归预测方程为
Y=-0.214+0.000 1x1+0.086x2+0.021x3+
0.002x4-0.06x5
(2)
式中,x1为煤层深度;x2为煤层厚度;x3为瓦斯含量;x4为日产量;x5为井下风速;Y为瓦斯浓度。
5个影响因素整体与瓦斯浓度的相关性显著,但不表示每个自变量都与因变量关系显著,各个影响因素间可能存在某种函数关系,可能造成模型误差[14],因此,需要检验5个影响因素间的共线性问题。一般以方差膨胀因子(VIF)为共线性诊断指标,以小于10为判断依据,VIF值越大,则共线性问题越明显。从表3模型参数可知,煤层厚度、日产量和井下风速的VIF值分别为72.151,44.876,26.304,远大于10,这3个影响因素存在严重的多重共线性问题,对模型造成干扰,因此,要了解每个影响因素对瓦斯浓度的单纯效应,则需解决这3个影响因素间的多重共线性问题。常用的解决方法有3种,即主成分回归、岭回归和偏最小二乘回归[15]。主成分回归分析获得的主成分对其他自变量具有较强的概括性,可能减弱对因变量Y的解释能力。岭回归分析基于改良后的最小二乘估计法,是一种主要解决共线性数据和“病态”数据的有偏性回归方法。偏最小二乘回归分析则不会削弱对Y的解释能力,并自动排除没有意义的信息。煤层厚度、日产量和井下风速3个因素均存在严重的多重共线性问题,因此,选用岭回归分析解决自变量间的共线问题,并建立瓦斯浓度预测模型。
3.1.1 求解岭回归系数的步骤
采用Matlab软件进行岭回归分析,设因变量为Y,有m个自变量x1,x2,…,xm,进行n次统计得到的数据矩阵为Xm×n,Yn×1。k为岭参数,求解岭回归系数的步骤主要分为5步[16]。
步骤1:将样本数据X,Y进行标准化,标准化后的平均值为0,标准差为1。矩阵X,Y分别变换为Z,Y。
步骤3:添加伪样本将变换后的Z,Y矩阵变为Zplus(n+m)×m,Yplus(n+m)×1。
步骤4:利用Regress函数进行回归分析,得到岭回归系数βi(k)(i=1,2,3…m)。
步骤5:用Plot画图语句进行作图,绘制出βi(k)随k的变化趋势,选择稳定的岭回归系数。
3.1.2 岭回归系数
对分析结果数据进行处理,得到图1及表4、5。
图1 岭回归参数的估计Fig.1 Estimation of ridge regression parameters
表4 岭参数对应的统计参数
图1为岭迹图,表示5个影响因素随岭参数变化的参数估计值,根据岭迹法确定岭参数,从图中看出,k≥0.3时,轨迹趋于稳定。从表4也可知,岭参数k≤0.3时,相关系数R2均大于0.9,且随着岭参数的增大,模型拟合度越来越差,因此,岭参数k取0.3。选取表5中k=0.3时对应的岭回归系数,所得标准化岭回归预测方程为
表5 不同岭参数下的各个自变量岭回归系数Table 5 Regression coefficients of each independent variable under different ridge parameters
Y=-0.043 5x1+0.260 1x2+0.210 9x3+0.276 9x4-0.243 9x5
转化为非标准化的岭回归预测模型为
Y=-0.000 7x1+0.170 2x2+0.019 6x3+0.001 1x4-0.080 6x5+0.036 8
岭回归系数绝对值大小体现了自变量对因变量的影响性大小,其值越大,影响作用越大。由此可以判断各个因素对瓦斯浓度影响性大小依次为x2(煤层厚度)、x5(断面风速)、x3(瓦斯含量)、x4(煤日产量)、x1(煤层深度),煤层深度的影响程度最小,在对瓦斯浓度进行评估时,可以不纳入考虑。
利用上述得到的多元线性回归预测模型和岭回归预测模型对瓦斯浓度进行预测,并与实测瓦斯浓度数据进行对比,见表6。多元线性回归的相对误差较高,其平均相对误差为19.85%;而岭回归分相对误差较低,平均相对误差为2.45%,精度提高了17.4%。图2更好地反映了2种方法得到的预测值与实测值的接近程度,岭回归分析所得的预测值更接近实测值,拟合度较好。进而反映出由于瓦斯浓度的影响因素间存在多重共线性问题,单一使用多元线性回归分析会降低预测精度,造成较大误差;结合岭回归分析方法,解决了影响因素间的共线性问题,提高了预测瓦斯浓度的精准度。
表6 模型预测值与实测值的比较Table 6 Comparison of model predicted values and measured values 单位:%
图2 瓦斯浓度的实测值和预测值Fig.2 Measured value and predicted value of gas concentration
(1)多元线性回归分析得出5个影响因素整体与瓦斯浓度关系显著,煤层厚度、日产量和井下风速3个因素存在多重共线性问题,对模型造成干扰,造成预测精度较低。
(2)利用岭回归模型解决了自变量间的共线问题,得到岭回归预测模型,根据岭回归系数大小判断5个因素对瓦斯浓度影响程度大小依次为:煤层厚度,断面风速,瓦斯含量,煤日产量,煤层深度。
(3)相比多元线性回归预测模型,岭回归分析预测效果更好,精度提高了17.4%。2种分析方法结合更具有实用性。