空气质量数据的校准研究

2020-03-31 01:50纪张伟
关键词:风速误差浓度

纪张伟

(唐山职业技术学院 基础部,河北 唐山 063000)

1 问题的提出

问题详见2019年全国大学生数学建模竞赛D题,这里对导致自建点数据与国控点数据造成差异的因素进行分析,并对照国控点数据建立数学模型对自建点数据进行校准.

2 问题分析

2.1 对于问题1

借助SQL server数据库,在附件2[1]中采用临近点法插入整点,分别作出自建与国控点一天内0:00~23:00的不同日期的“两尘四气”箱线图及自建与国控点从2018年11月—2019年6月265 d“两尘四气”浓度变化差异的折线图,得出自建点数据误差相对较大的浓度指标有CO,NO2,SO2,O3,而PM2.5与PM10相对较小.

2.2 对于问题2

只考虑天气因素对自建点监测数据误差造成的影响,利用R软件建立多元线行回归模型,采用逐步回归法进行变量选择分别给出自建点数据误差受到的天气因素影响的指标,即PM2.5的数据差异主要受温度,风速的影响;PM10的数据差异主要受温度的影响;CO的数据差异主要受压强,温度的影响,受风速,湿度的影响较小;NO2数据差异主要受压强,温度,湿度的影响,受风速的影响不明显;SO2的数据差异主要受压强,温度的影响;O3的数据差异主要受温度,风速,压强的影响.

2.3 对于问题3

要根据国控点数据对自建点数据校准,因此只考虑自建点“两尘四气”数据的校准,利用R语言建立自建点“两尘四气”分别与国控点“两尘四气”的多元线性回归模型,利用逐步回归进行变量选择,并给予显著性检验.通过已建立的回归模型,计算出自建点的测量数据,再根据公式测量平均误差=(自建实际值-自建测量值)/样本n,得到校对误差=自建测量值+平均误差-国控值,从而对国控点近邻的自建点数据进行了良好校准.

3 模型假设

1.假设自建点检测的数据不受空气质量检测仪本身、个人等因素的影响.

2.允许根据整时的国控点数据预测整时周围5 min内的自建点相关数据.

3.国控点与近邻自建点上采集的数据真实有效.

4 模型建立与求解

4.1 问题1的数据分析

由于附件1[2]提供的数据是按小时监控数据,共4 200条.而附件2[1]的数据是按分钟监控数据,共23 470条,而且整点外的数据较小,要比较自建点与国控点间各指标的差异,必须将附件2中的数据整点简化,为了减少人为误差得到附件2中整点数据,通过SQL server查询方法查询临近点的值作为整点数据.

画出2018年11月—2019年6月265 d“两尘四气”自建与国控点浓度变化差异的折线图(图略)以及一天内自建与国控点0:00~23:00的不同日期的“两尘四气”箱线图,以PM2.5和CO为例,见图1与图2.通过图形观察得知,国控表与自建表五种气体浓度变化趋势相同,但也有一定的误差.具体可以得到如下结论:自建点数据误差相对较大的浓度指标有CO,NO2,SO2,O3,而PM2.5与PM10相对较小.

图1 国控点与自建点PM2.5的日浓度变化箱线图

图2 国控点与自建点CO的日浓度变化箱线图

4.2 问题2的模型建立与求解

本题主要研究自控点与国控点数据造成差异的因素分析.一般空气质量检测仪的监控数据误差,可能受众多因素影响,如:人为因素,仪器自身因素,地点因素,天气因素等.这里我们根据所给的附件数据,只研究天气因素(风速、降水量、压强、温度、湿度)对数据造成的误差,其余因素均不予考虑.

首先,利用Excel软件将国控点中的数据与“自建点各个指标数据整点表”进行无量纲化处理得到国控无量纲化表和自建无量纲化表.

其次,将两表整合,用自建的“两尘四气”数据减去对应国控的“两尘四气”数据,得到自建点与国控点的“两尘四气”浓度误差,进而分析风速、降水量、压强、温度、湿度对“两尘四气”的浓度误差的影响.尝试多元线性回归模型[3],具体如下:

以建立PM2.5浓度监测误差与风速、压强、降水量、温度、湿度模型为例:

y1=β0+β1x1+β2x2+β3x3+β4x4+β5x5,ε~N(0,σ)

其中β0,β1,β2,β3,β4,β5为多元回归系数.

采用逐步回归法[4]用R语言编程,程序代码为

mydata<-read.csv(file.choose())

>head(mydata)

>tlm<-lm(mydata[,2]~mydata[,8]+mydata[,9]+mydata[,10]+mydata[,11]+mydata[,12],data=mydata)

> summary(tlm)

> tstep<-step(tlm)

> summary(tlm)

> tstep<-step(tlm)

结果如下:

Call:

lm(formula = mydata[,2]~ mydata[,8]+ mydata[,11],data = mydata)

Residuals:

Min 1Q Median 3Q Max

-523.84 -47.34 8.99 59.59 718.08

Coefficients:Estimate Std.Error t value Pr(>|t|)

(Intercept) 29.518512 3.767030 7.836 6.87e-15 ***

mydata[,8] 0.018741 0.006249 2.999 0.00274 **

mydata[,11]-0.091385 0.005485 -16.661 < 2e-16 ***

Signif.codes:

0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error:93.67 on 2458 degrees of freedom

Multiple R-squared: 0.1026,Adjusted R-squared: 0.1019

F-statistic:140.5 on 2 and 2458 DF, p-value:< 2.2e-16

通过Pr(>|t|)的值可知所有的检验均为显著,因此所得回归方程为:

y1=29.518 512+0.018 741x1-0.091 385x4

因此风速和温度是影响自建点PM2.5的监测浓度误差的关键因素,随着风速变大,PM2.5浓度升高;而温度的升高,会导致PM2.5浓度降低.

同理类似得出结论:影响自建点PM10的监测浓度误差的关键因素是温度,随着温度的升高PM10的浓度会随之下降;影响自建点CO的监测浓度误差的关键因素是温度和压强,CO的浓度随着压强和温度的提高而增加;影响自建点NO2的监测浓度误差的关键因素是温度、湿度和压强,NO2的浓度会随着温度、湿度和压强的升高而升高;影响自建点SO2的监测浓度误差的关键因素是温度和压强,SO2的浓度会随着压强和温度的升高而降低;影响自建点O3的监测浓度误差的关键因素是温度、风速和压强,O3的浓度会随着压强的变大而升高,随着温度和风速的升高而降低.

4.3 问题3的模型建立与求解

要根据国控点数据对自建点数据校对,因此不对附件2中天气因素数据进行校对,只考虑自建点处PM2.5,PM10,CO,NO2,SO2,O3监测数据的校对,具体建模步骤如下:

数据处理:由于CO的浓度与其他气体浓度单位不统一应先统一单位.

研究自建点PM2.5浓度与国控点PM2.5,PM10,CO,NO2,SO2,O3浓度的相关关系建立如下多元线性回归模型:

z1=β0+β1w1+β2w2+β3w3+β4w4+β5w5+β6w6,ε~N(0,σ)

其中β0,β1,β2,β3,β4,β5,β6为多元回归系数.

1)采用逐步回归法确定回归变量,得到回归方程为:

z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6

2)残差分析[5]及异常点检测,如图3.

图3 残差分析与异常值检验

图3-a显示残差和拟合值之间数据点均匀分布在y=0两侧,呈现出随机的分布.

图3-b显示数据点按对角直线排列,趋于一条直线,并被对角直接穿过,直观上符合正态分布.

图3-c显示数据点均匀分布在[-2.5,2.5]范围内,呈现出随机的分布.图3-d显示没有出现等高线,则说明没有影响回归结果的异常点.

结论,没有明显的异常点,残差符合假设条件.

3)自建点PM2.5浓度的校准误差

根据PM2.5浓度与国控点PM2.5,PM10,CO,NO2,SO2,O3浓度的多元线性回归模型

z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6

计算出自建点的测量数据,再根据公式得到:

进而计算出自建点PM2.5浓度的校准误差=自建测量值+平均误差-国控值

PM2.5校准表部分如表1(单位μg/m3).

表1 自建点PM2.5浓度的校准误差

其他气体浓度误差的校准同自建点PM2.5浓度校对的多元线性回归模型解题思路,此处不做赘述.

5 模型评价与推广

5.1 本模型的优点

建立了线性多元回归模型,详细分析了导致自建点数据与国控点数据造成差异的因素.给出了对自建点数据进行校准的模型,值得微型空气质量仪的厂家进行参考.

5.2 本模型的缺点

自建点数据校准的模型的精度有待进一步提高.

本模型可以推广到化工厂的检测排污仪器上.

猜你喜欢
风速误差浓度
神医的烦恼——浓度与配比
表示混合物组成的量的标准名称
高速铁路风速监测异常数据判识方法研究
邯郸市近46年风向风速特征分析
Beidou, le système de navigation par satellite compatible et interopérable
离子浓度大小的比较方法
2006—2016年平凉市风速变化特征分析
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
物质的量浓度计算策略