联合GEE与多源遥感数据的土地利用分类研究

2024-02-24 14:46黄仲
资源导刊(信息化测绘) 2024年1期
关键词:光学土地利用精度

黄仲

(江西省赣西土木工程勘测设计院,江西 宜春 336000)

1 引言

有效、快速地获取土地覆被信息对于土地资源监测、土地资源统一规划、农业快速发展、水资源合理配置具有重要意义。土地目标对象的提取和分类是土地要素变化的基本内容,为土地覆被变化提供了数据依据。过去,人们通过实地调查和汇总统计了解覆盖信息,既费时又费力。遥感技术目前用于地面的实时监测,影像信息时效性好,可实现大规模土地利用的实时监测,显著提高土地资源信息获取效率。

随着遥感技术的日渐成熟,高精度的土地分类成果已成为趋势,通常会通过时间序列的多期影像方法来提高土地分类精度。如朱永森等以多期HJ/AB 星为数据源,创建PCI、NDVI 指数和模型阈值,提取城市群土地分类利用信息[1]。

高分辨率光学影像具有清晰的光谱和地物纹理信息,在破碎区域能获取更高的精度。基于高分辨率影像的土地分类研究采用的方法主要包括滤波、支持向量机、机器学习、高斯核函数等。然而,在实际应用中,对于大尺度和云雨较多地区,受云雨、光照等因素的影响,经常造成数据缺失形成无效观测,一定程度上限制了土地分类的准确提取[2]。

合成孔径雷达(Synthetic Aperture Radar,SAR)数据,对云层的穿透力很强,具有不受云雨天气影响、全天时、全天候监测等特点,弥补了光学影像的不足。然而,单一时相的SAR 数据很难对地物进行精确提取,主要是因为SAR 数据的信号易受其他地物相干斑噪声的干扰,影响对目标地物的提取。

有学者认为,多时相或者多极化SAR 数据能够获得更好的分类结果[3]。利用光学数据和SAR 数据融合,可以最大限度地提升地物分类精度。除数据源外,根据地区环境选择合适的分类算法,也会提升分类精度结果[4]。

近年来,随着机器学习算法的发展,利用机器学习算法进行地物分类被广泛应用。随机森林算法是机器学习分类算法的一种,具有模型训练时间少、计算精度高等特点,同时对训练样本的数量和质量要求较低,因此可用于复杂的地物分类中。

GEE 是一个结合海量卫星遥感影像以及地理要素数据的网络平台,存储了Sentinel 数据、MODIS 数据集、降水数据、海洋表面温度数据、Landsat 数据、气候数据和海拔数据等海量数据,可以解决大面积土地覆盖制图方面最重要的数据存储下载问题[5]。用户可以轻松访问、选择和处理待研究区域的大量数据。GEE 云平台也允许用户上传自己的栅格和矢量数据(例如GeoTIFF 或Shape 文件)进行分析,完全控制访问[6]。因此,该平台被科研人员广泛应用。基于此,本文借助GEE 云平台数据资源和计算资源,将Sentinel-1 SAR 极化数据所包含的地物结构信息、Sentinel-2 光学数据的光谱信息和机器学习RF 算法相结合,探究时间序列SAR 数据、融合时间序列SAR 和光学数据的不同特征值组合对土地利用分类精度的影响,初步验证了利用JM 距离寻找最优特征的可行性。

2 研究区域与数据来源

2.1 研究区概况

研究区为江西省南部的赣州市(113°54′~116°38′E ,24°29′~27°09′N),区域范围如图1 所示。该地区受地质构造和成土因素等条件影响,具有土地类型地域性强、土地利用差异明显、山地多平原少、耕地面积小、后备耕地资源不足等特点。

图1 江西省赣州市

2.2 数据来源及预处理

Sentinel-1 主动微波遥感卫星由两颗极轨卫星A星和B 星组成,搭载C 波段的合成孔径雷达(SAR)传感器,重访周期小于10 天,本文采用分辨率为10m,极化方式为“VV”和“VH”的后向散射系数数据。Sentinel-2 由Sentinel-2A 和Sentinel-2B 两颗高分辨率卫星组成,单颗卫星的重访周期为10 天,两颗互补,重访周期为5 天。

本文选取的研究区范围较大(3.9 万平方公里)且时间序列长久,因此在GEE 云平台上进行调用、处理Sentinel-1 微波遥感数据(811 景)和Sentinel-2 MSI 多光谱遥感数据(374 景)。SAR 数据虽不受云雨气候影响,但由于距离成像中心越远的像元噪声越强,因此调用GEE 预处理参数完成轨道参数定标、辐射定标和热噪声去除等操作。多光谱数据易受云雨影响,因此调用平台云掩膜算法对影像进行计算,将云量参数设置为小于10%,并将去云影像重采样至10m。遥感影像参数及日期如表1 所示。

表1 遥感影像参数及日期

2.3 特征集构建

结合研究区植被的生态环境特点,共计24 个特征变量。其中选取Sentinel-1 高度、坡度2 个地形特征,选取Sentinel-2 光谱反射率及相关植被、水体、红边指数共16 个特征变量。选取Sentinel-1 SAR 数据的极化特征变量和纹理特征变量,选取灰度共生矩阵(Gray-level Co-occurrence Matrix,GLCM)生成的角二矩阵(Angular Second Moment,ASM)、对比度(Contrast,CONTRAST)、相关性(Correlation,CORR)和熵值4 个纹理特征变量,具体如表2 所示。

表2 特征变量及其计算公式

根据《赣州市第三次全国国土调查主要数据公报》现行的土地利用分类体系,结合研究区土地利用/覆被特点,将研究区分为建设用地、水体、林地、裸地和耕地5 大类。

结合多期Google Earth 遥感影像,在遥感影像上进行采样。建设用地包括房屋、道路等,林地包含林地、草地、城市绿地等,裸地包括裸土、裸岩以及采石场等。在Google Earth 上,采用随机采样方法在研究区采集样本点,一共获得总样本8657 个样本点,根据目前常用解译分类习惯,将训练样本和验证样本比例设置为7∶3,分别为6493 个和2164 个,样本数据集如表3 所示。

表3 样本数据集

3 研究方法

3.1 总体技术流程

利用SAR 影像和光学影像特性,提取地物光谱特征、极化特征、纹理特征、指数特征和地理特征,基于JM 距离特征优选,实现特征最优解,构建特征组合,融合时序SAR 影像和时序光学影像,实验验证不同特征不同融合影像信息的提取地物分类差异,分析分类精度及在不同组合下的优势。技术流程如图2 所示。

图2 技术流程

3.2 特征优选

采用JM 距离确定研究区土地分类最佳特征组合。JM 距离是评价不同类别之间分离程度的有效办法,其表达式为:

公式(1)中,d表示某一特征的巴氏距离。通常情况下假设多变量正态分布,巴氏距离d的公式为:

公式(2)中,mk表示某一特征的均值,∑k表示某一特征的协方差。JM 距离表示样本间的可分离程度,其值在0 ~2之间,值越大表示分离度越高。

3.3 随机森林算法

随机森林(RF)是机器学习和监督分类算法的一种。随机森林算法的预测结果是通过求解组成森林的不同决策树的多数决策结果得到的。随机森林算法具有运算速度快、分类准确率高、对噪声数据敏感等特点。随机森林模型训练速度比较快,可以创建高精度的分类器,分类效果更好。但是随机森林中决策树的数量会极大地影响随机森林算法的效率。如果决策树的数量太少,分类精度会下降;如果决策树较多,分类精度趋于稳定,但工作速度较慢[7]。总体来说,随机森林的数据公式模型如公式(3)所示,本文在保证分类精度的同时也确保工作效率,因此基于大量的实验研究选取决策树数量为50 最为合适。

公式(3)中,F(x)表示随机森林的预测结果,f_i(x)表示第i棵决策树的预测结果。

4 实验结果与分析

4.1 特征优选

利用GEE 云平台调用特征去相关函数模块,计算特征集相关系数矩阵,设置保留相关系数绝对值小于0.9 的特征集,完成特征去相关。然后调用JM 距离函数模块,分别统计计算不同特征对5 类覆被类型的JM距离的分离程度。

按照分离程度由高到低增加特征变量。当特征数为21 时,林地制图精度达到最大;当特征数为23 时,建设用地制图精度达到最大;当特征数为23 时,水体制图精度达到最大;当特征数为22 时,裸地制图精度达到最大;当特征数为21 时,耕地制图精度达到最大。以上地物覆盖类型之后会随着特征继续增加分类精度,开始趋于稳定并有所下降。因此可利用特征优选确定最少代入计算的特征,筛选排名靠前的5 至10 个特征作为最优特征进行后续分类,减少信息冗余。具体特征增加过程如图3 所示。

图3 制图精度随特征变化情况

4.2 融合Sentinel 主被动遥感数据分类

单利用某一时相的SAR 极化特征数据有极大局限性[8]。将月尺度上SAR 观测数据进行均值合成,可降低云雨天气对分类精度的影响,提高土地利用分类的精度[3]。本研究选取2021 年11 月到2022 年6 月的Sentinel-1 SAR 数据,在月尺度上进行均值合成,用于土地利用分类研究。在GLCM 计算纹理特征共生矩阵大小的选择上,选取4、8、16 邻域数值进行计算,分类精度最高为4 邻域。融合多时相Sentinel-1 极化特征和纹理特征的分类总体精度为85.02%,Kappa 系数为0.79。分类效果不是特别理想,结果如表4 所示。

表4 多时相Sentinel-1 SAR的极化特征分类结果

受研究区地理位置及气候环境影响,在2021 年11 月到2022 年6 月期间,难以获取单天覆盖整个研究区的Sentinel-2 光学影像。因此,选取2022 年1月到6 月覆盖整个研究区的合成光学数据,探究融合主被动遥感数据对土地利用分类精度的影响。首先,对光学数据进行分类研究,分类结果如表5和图4所示。

表5 Sentinel-2光学数据分类结果

图4 Sentinel-2光学数据(左)及其分类结果(右)

由表5 和图4 可知,Sentinel-2 光学数据的分类总体精度为89.36%,Kappa 系数为0.85。相对融合Sentinel-1 SAR 数据的分类总体精度提升4.34%,Kappa 系数提升6.40%。

其次,融合时序Sentinel-1 SAR数据、SAR纹理特征和Sentinel-2 光学数据,进行土地分类研究,结果如表6 和图5 所示。此时,融合主被动遥感数据的土地分类总体精度为94.96%,Kappa 系数为0.93,相对于单独使用光学数据,分类总体精度提升5.63%,Kappa 系数提升7.82% ;相对于融合时序Sentinel-1 SAR 数据,分类总体精度提升9.94%,Kappa 系数提升14.22%。

图5 SAR VH极化图(左)和多时相Sentinel-1 SAR数据的极化特征、纹理特征融合单期光学数据分类结果(右)

多源融合后的影像分类成果精度更加精准,耕地、水体、林地等在图像上的分类更加精细。这主要是由于SAR 数据的地物后向散射特性异于光学遥感影像。光学数据反映的是目标体的光谱特性,SAR 数据的穿透性不仅能够获取植被表面信息,对植被的叶、茎、枝干等信息也有一定反映,获取的是不同于光学数据的地物信息[9]。此外,时序SAR 数据相对于光学数据和融合主被动遥感数据,在有云雾覆盖时同样能够进行土地利用分类。在气候湿润、多云多雾的江西省赣州地区,当缺乏光学数据时,使用长时序SAR 数据是最优选择。

5 结论

研究在GEE 云平台上,利用时序Sentinel-1 SAR数据和Sentinel-2 光学影像,在RF 算法上,构建不同的特征向量组合,验证了利用JM 距离寻找最优特征的可行性,对比分析了不同特征向量组合对土地利用分类的精度,得到如下结论:

(1)在缺乏光学数据的情况下,融合时序月平均SAR 数据对土地利用分类的精度能够达到85%,特别是对水体的识别精度能够达到96%以上;相对于光学数据,时序SAR 数据能够穿透云雾,对云覆盖区域的土地利用分类有一定指导作用。

(2)利用JM 距离探索了不同地物的最优特征选择,并将特征数降低,且相对提升了制图精度。

(3)时序月平均SAR 数据与光学数据融合时,土地利用总体分类精度最高,达到94.96%,Kappa 系数达到0.93。

猜你喜欢
光学土地利用精度
滑轮组的装配
光学常见考题逐个击破
基于DSPIC33F微处理器的采集精度的提高
土地利用生态系统服务研究进展及启示
GPS/GLONASS/BDS组合PPP精度分析
滨海县土地利用挖潜方向在哪里
改进的Goldschmidt双精度浮点除法器
光学遥感压缩成像技术
Endress+Hauser 光学分析仪WA系列
巧用磨耗提高机械加工精度