基于Logistic 回归模型的风云二号（G 星）降雹识别技术研究

2024-03-18 05:13彭宇翔文继芬唐辟如李怀志

科技创新与应用 2024年7期

彭宇翔，刘涛，文继芬，李皓，唐辟如，李怀志

（贵州省人工影响天气办公室，贵阳 550081）

目前，风云二号（G 星）卫星提供的云顶温度、云顶高度、液水路径、过冷层厚度、光学厚度、有效粒子半径以及黑体亮温等7 项卫星反演产品对于冰雹的监测预警业务作用巨大。

近年，部分学者利用卫星通道和反演产品进行了对流云及冰雹个例方面的研究。2004 年，安晓存等开展了云顶亮温梯度特征分析，初步了解了云顶亮温跟冰雹的变化关系；2014 年，孙玉稳等学者分析了1987年的5 次冰雹天气冰雹和降水分布特征；2018 年，朝鲁门依托了卫星遥感对冰雹灾害的监测方法进行研究；2019 年，倪煜淮等利用了风云二号（D 星）逐小时亮温分析对冰雹天气过程进行分析；2020 年，刘小艳等对利用统计方法对贵州降雹个例风云二号（G 星）反演产品时间变化以及特征参数进行研究。而现阶段还没有相关学者基于Logistic 回归模型，利用风云二号（G 星）卫星的反演产品开展降雹识别技术研究。风云二号（G 星）卫星的反演产品已经用于贵州冰雹天气监测预警业务中，但针对风云二号（G 星）卫星反演产品是否对降雹事件具有实质性的指导作用，暂无深入研究。因此，本研究主要基于风云二号（G 星）卫星7 项反演产品，建立Logistic 回归模型，检验风云二号（G 星）卫星的反演产品降雹事件的识别作用。

本文以风云二号（G 星）卫星的7 项反演产品作为输入参数，建立Logistic 回归降雹识别模型，利用检验集数据对模型降雹识别效果进行检验，验证风云二号（G 星）卫星的反演产品对降雹识别的有效性。

1 数据与方法

1.1 风云二号（G 星）卫星数据

风云二号（G 星）是风云2 号（03 批）卫星中的第2颗，2014 年升空，2015 年投入气象观测业务。

本研究收集了2020 年3—5 月的11 个冰雹日（共计136 组）的风云二号（G 星）卫星反演产品数据（分别包含了68 组降雹点和未降雹点数据），将每个降雹点降雹时刻前后15 min 内的反演产品作为该点的数据。同时，选取相应数量的未降雹点数据进行对比。该数据集被分为了训练集跟检验集。训练集为随机选取的其中116 组数据，用于训练模型（分别包括58 组降雹点与未降雹点数据），模型检验集为剩余20 组数据（分别包括10 组降雹点与未降雹点数据）。

1.2 Logistic 回归模型

Logistic 回归模型是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断、经济预测等领域。该模型常用来处理二分类问题。事实上冰雹的识别就是一种二分类问题，即：降雹与未降雹。将是否降雹作为因变量，并假设y=1 表示降雹，y=0 表示未降雹，这样就将冰雹识别转换成了“0-1 型”因变量的识别问题。要建立识别模型就需要对模型进行两个方面的改进：第一，回归函数应该改用限制在[0，1]区间内的连续曲线，常用的就是Logistic 回归模型，模型的形式是f（x）=ex/（1+ex）；第二，因变量yi本身只取0 或1 两个离散值，因此可以用yi=1 的概率代替yi本身作为因变量。在冰雹识别Logistic 模型的建立中，用降雹的概率作为模型的因变量，Logistic 冰雹识别模型就可以表示为p（yi）=exp（a0+aijxij）/（1+exp（a0+aijxij）），其中xij为模型输入变量，i为样本量，j为自变量数量。这样p（yi）的取值就被限制在[0，1]区间，p（yi）可理解为yi=1 的概率，当p（yi）∈[0，0.5）时，yi=0，即未降雹；当p（yi）∈[0.5，1]时，yi=1，即降雹。基于该理论，可建立冰雹云识别Logistic 回归模型，并对冰雹云进行识别。

2 结果和讨论

2.1 Logistic 回归模型建立

利用训练集完成Logistic 回归模型建立（式（1））

式中：x1为云顶高度、x2为云顶温度、x3为过冷层厚度、x4为光学厚度、x5为有效粒子半径、x6为液水路径、x7为黑体亮温。

2.2 模型识别效果检验

收集2020 年3—5 月11 个冰雹日中的136 组风云二号（G 星）反演数据。其中116 组用于建模，剩余20 组进行检验（检验结果见表1）。

表1 模型识别检验结果

表1 为Logistic 回归模型冰雹识别的主要结果，包括随机选取的10 个降雹点和10 个未降雹点，识别结果统计见表2。

表2 模型识别结果统计

识别结果显示：所建Logistic 回归模型冰雹识别准确率为85%，其中对10 个降雹点识别准确率为90%，对10 个未降雹点识别准确率为80%。在对冰雹天气进行识别的业务中，通常会存在一定的漏报率和空报率，其中漏报是发生了降雹事件没有成功识别，空报是没发生降雹事件但识别出了降雹，因此，空报和漏报均是错误识别的现象，且都无法100%消除。但是，从防灾减灾的角度，为了减少冰雹等灾害造成的损失和危害，对冰雹等灾害的识别预警通常采取的是宁愿空报不漏报，为此对模型的漏报率和空报率进行分析（见图1 和图2）。

图1 降雹事件识别准确率与漏报率

图2 未降雹事件识别准确率与空报率

从图1 和图2 可知：Logistic 回归冰雹识别模型对降雹事件识别准确率为90%，漏报率为10%，对未降雹事件的识别准确率为80%，空报率为20%。因此Logistic 回归冰雹识别模型的空报率明显高于漏报率，这也符合冰雹等灾害识别业务中的“宁愿空报不漏报”的方式，因此该模型对冰雹识别预警工作有着非常重要的作用。

3 结论

本文以风云二号（G 星）卫星的7 项反演产品建立Logistic 回归模型，对贵州2020 年的降雹事件进行识别，这7 项反演产品包括：云顶温度、云顶高度、液水路径、过冷层厚度、光学厚度、有效粒子半径以及黑体亮温。数据集共136 组数据（包括降雹点和未降雹点数据各68 组）。随机抽取116 组作为训练集建立Logistic 回归冰雹识别模型，利用剩余20 组数据作为模型检验集，验证效果。结果表明，Logistic 回归冰雹识别模型对降雹的识别准确率为85%（对检验集中的10 个降雹点识别准确率为90%，10 个未降雹点识别准确率为80%）。因此，卫星反演产品对降雹识别研究是十分有意义的。