基于卷积神经网络的京杭大运河遥感影像水质分类算法研究

2020-03-18 11:04
江苏科技信息 2020年4期
关键词:京杭大运河水体卷积

柴 琪

(江苏师范大学地理测绘与城乡规划学院,江苏徐州 221116)

0 引言

京杭大运河全长1 794多公里,是世界上最长、最古老的运河。1 400多年来它作为中国南北之间的交流的纽带推动着区域间的协调发展。即使在现代,大运河仍然在交通、灌溉、旅游和防洪等方面发挥着重要作用。大运河年货运量高达1亿吨,被誉为仅次于长江的第二条黄金水道;大运河具有丰富的物质文化底蕴,2014年被联合国教科文组织列为世界遗产。此外,京杭大运河作为中国南水北调工程的东线,将长江水引致北方缓解北方土地灌溉和饮用水资源短缺的问题[1]。

随着人类活动的日益频繁,大运河的水环境面临着巨大的压力,水质不容乐观。党广彬等[2]研究发现近年来随着京杭大运河山东段的通航,济宁段水质有恶化的趋势,目前水体情况尚清洁,但存在一定污染或污染风险。李朝等[3-4]通过对京杭大运河水生生物的多样性调查发现京杭大运河徐州段的水质情况总体处于污染状态;孙晓菲等[5]发现大运河表层沉积物中多氯联苯浓度呈现出明显的生态风险;王晓等[6-7]均发现荆马河与大运河交汇的下游污染比上游严重,且邳州段有机污染和多氯联苯都很严重。王信海等[8]通过夏季浮游动物群落结构的评估发现宿迁国电码头段水体受污染程度较轻,基本处于轻污染与清洁之间。扬州市区存在着轻度重金属污染,其表层沉积物中的多环芳烃处于中度污染[9-10]。目前水质监测的方法主要是使用在监测断面上采取水样本传统的实验室化验水质参数的方法进行监测。传统的方法虽然精度高但是要消耗较大的人力和物力并且监测结果空间不连续,难以获得两个监测站点中间的水质状况。因此宏观性强、更为快速、准确和廉价的水污染监测方法尤为重要。

遥感技术具有快速、大范围、周期性、一次成像成本相对低廉的特点,利用遥感影像可以对大面积水域进行连续的水质监测[11-12]。由于大气、地形等外在因素极易影响遥感的成像条件,统计模型始终面临着样本代表性较差和模型通用性不理想的困扰[13]。因此大量学者尝试将针对RGB图像的深度神经网络引入遥感图像领域,该方法选用大量样本训练用于提取信息的神经网络模型,在遥感图像分类上的应用效果远优于传统算法。但即使是深度神经网络仍旧无法深入挖掘遥感图像蕴含的辐射、光谱及地物理化参数等信息,难以获得多波段遥感图像信息特征。

为充分利用遥感数据辐射和光谱等丰富的地物信息,融合遥感数据特征,本文将多景遥感影像的水像元光谱信息建立水质数据库,并设计卷积网络模型深入挖掘水质光谱信息特征提出应用于大尺度水质分类模型,为监管部门治理运河水环境和提高污水治理效率提供帮助。

1 研究区和数据

1.1 研究区

京杭大运河是世界上最长、最古老的运河沟通了海河、黄河、淮河、长江、钱塘江五大水系。据1979年《全国内河航道普查资料汇编》所载,京杭大运河全长1 747km,其中北京到济宁段季节性干涸且长江以南段河道宽度有限,因此本文选择从济宁段至扬州段作为研究区。本文研究区经过山东省济宁市、枣庄市,江苏省徐州市、宿迁市、淮安市、扬州市,连接南四湖、骆马湖、洪泽湖、高邮湖和邵伯湖,研究区如图1所示。

图1 京杭大运河研究区示意

1.2 遥感数据

目前使用遥感影像研究运河水质是热点问题,多种传感器用于水质监测。考虑到京杭运河的宽度和水体光谱特征的复杂性,本文使用Landsat影像对运河水体进行分类。

本文使用Google Earth Engine(GEE)平台来访问、处理和合成来自USGSLandsat8 Surface Reflectance数据。研究区在2018年1月至7月共有95景影像,共涉及10个条带。Landsat影像的宽幅是185×185 km,条带号122036,121036,120037三景影像即可覆盖整个研究区。由于Landsat访问时间间隔为16天,并且云和雾会对水质监测产生误差,因此本文最终挑选出15景低云少雾的影像用于研究区水质监测。影像信息如表1所示。

2 基于深度卷积神经网络的算法结构设计

本文采用8层的深度卷积神经网络,包括输入层、2层卷积层、2层下采样层、2层全连接层和Softmax回归层,如图2所示。

输入层的一个样本是一个像元的7个可见光波段值,即1×7大小的矩阵,而并非常见的多像元RGB通道值。考虑了本文输入数据的特殊性,因此设计结构时决定第一层使用16个1×1大小卷积核。1×1大小卷积核能够实现跨通道的信息交互和整合,能够快速实现特征的降维和升维,能够实现特征的线性组合。1×1大小卷积操作是变相实现了的全连接层的效果。本文通过对输入的样本进行1×1卷积已达到升维目的,一定程度上能够找到相同水质的像元具有的深层特征。此外,本文在第5层使用1×2卷积核以找到不同组合的两波段之间的联系,充分利用有限的光谱信息发掘水质特征。利用卷积层和非线性之间的批规格化层,如ReLU层,加快卷积神经网络的训练,降低对网络初始化的敏感性。

3 实验结果及分析

3.1 水质样本数据库的建立

本文根据遥感影像数据和国家环境监测总站发布的水质月报结果制作用于水质分类的训练样本和验证样本。月报中公布了里运河、鲁南运河、韩庄运河和梁济运河自2018年1月至6月的水质结果,水质结果是根据地表水水质评价指标为《地表水环境质量标准(GB3838—2002)》将水质分为6个等级(Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、劣Ⅴ)。本文根据GB3838—2002对各等级水的定义将6类水质等级归纳为3类:Ⅰ~Ⅱ定为优,Ⅲ类定为良好,Ⅳ~劣Ⅴ类定为污染,因此2018年1—6月各河段的水质等级如表2所示。

本文在15景影像的各个河段上选取一定数量像元建立水质样本训练库(样本选取位置如图3所示),每个像元的1-7波段的光谱反射率作为输入样本,该像元对应的水质等级作为标签。每个河段选取的样本个数如表3所示。

表1 本文遥感影像信息

图2 网络模型

表2 各河段2018年1—6月水质等级

图3 各河段样本选取位置

表3 样本河段遥感影像信息

本文从水质样本训练库随机选取的36 000个像元作为训练和交叉验证样本,每个水质等级中有10 000个像元作为训练样本,2 000个像元作为交叉验证样本,即训练样本30 000个,验证样本6 000个。

3.2 模型精度验证

将从水质样本库中随机抽取各水质等级样本36 000个带入卷积神经网络模型中进行训练。本文将模型的patience值设置为5,即验证误差大于训练误差的次数超过5次时终止训练,这使得验证起到了防止网络过拟合的作用。本文对训练样本进行了共进行了20个epoch训练,网络的验证精度为88%,模型训练结果如图4所示。从图中可以看出损失函数有较好的收敛,并且验证误差大于训练误差的次数小于5次,这说明网络没有较强的过拟合从而具备一定的泛化能力。

图4 卷积神经网络训练

3.3 模型测试结果分析

为了进一步测试模型的精度和证明网络精度的可信度,本文选择2018/1/11的122036、2018/3/9的121036、2018/1/13的120037三景影像上的所有水像元(25 000个左右)作为测试数据(见表4),该模型的测试精度为84.6%。

本文将错误样本的空间位置进行可视化(见图5)发现,错误预测的样本主要集中在韩庄河道,该河段的月报水质等级是良好,然而被模型判断其为污染水体。错误样本的集中说明错分很有可能是月报数据的结果与遥感影像获取的时刻结果之间的差异造成的。月报结果为当月平均状况,而遥感影像反应的是某时刻的水质情况。由于水体是流动的,再加上雨雪等自然天气状况影响,污染物会在接下来几小时或几天内扩散。由于遥感是作为环境管理的辅助手段,其作用主要是发现污染水体的靶区,为相关部门提供需要进行详细监测水质的区域范围,因此将良质水体识别成污染水体的错误并不影响该目的。

4 结语

本文构建卷积神经网络大对京杭大运河济宁-扬州段进行分类试验,卷积神经网络法能够实现水质分类,并且水质分类效果较好,精度达到84%以上,能够达到大尺度监测的精度要求。通过神经网络法进行京杭大运河水质监测比传统水体监测更便捷,更具有泛化能力,可以通过该法及时的发现污染河段可疑区并及时采取措施治理,这对京杭运河水体的管理与治理具有重大意义。

图5 预测错误的样本点

表4 测试样本信息

猜你喜欢
京杭大运河水体卷积
依河而生,因河而兴:元明清戏曲迭代与京杭大运河关系论说
农村黑臭水体治理和污水处理浅探
基于3D-Winograd的快速卷积算法设计及FPGA实现
多源污染水体水环境质量提升技术应用
生态修复理念在河道水体治理中的应用
京杭大运河与戏曲传播研究的新视角
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
广元:治理黑臭水体 再还水清岸美