土地利用分类粒子群优化概率神经网络半监督算法

2022-03-14 07:57王春阳汤子梦吴喜芳李长春张合兵
农业机械学报 2022年2期
关键词:训练样本新乡市土地利用

王春阳 汤子梦 吴喜芳 李长春 张合兵

(1.河南理工大学测绘与国土信息工程学院, 焦作 454003; 2.河南理工大学计算机科学与技术学院, 焦作 454003)

0 引言

土地资源是人们赖以生存和发展的基础,随着全球环境气候不断变化,温室效应日益加剧,人类发展过程中对土地的利用以及引起的土地覆盖变化被认为是全球环境变化的重要组成部分[1]。土地利用分类图是研究土地变化的前提,为生态服务和制定土地政策提供了依据[2]。伴随着计算机技术的发展,土地利用/覆盖变化的研究方法日新月异,传统分类方法成本高,工程量大,且效果不佳[3],机器学习如人工神经网络[4]、支持向量机[5]、决策树[6]等是通过学习来获取经验并改进自身性能的方法,受人为因素影响较小,分类精度较高,被广泛应用在遥感影像的分类中[7]。

机器学习的发展可以追溯到1990年,WARREN等[8]首次提出了神经网络结构模型,为机器学习的提出和发展奠定了基础,随后MITCHELL等[9]提出了机器学习的概念。运用机器学习算法对遥感影像进行分类,既提高了分类精度,又节约了成本,因此成为学者们研究的热点[10-13]。在许多数据挖掘和机器学习的任务中,存在大量未标记的样本和有限的标记样本[14],马永建等[15]将植被指数NDVI值和纹理特征灰度共生矩阵能量值作为特征波段,基于U-Net模型实现了对GF-1号遥感影像荒漠地区耕地的提取,相比于传统方法,分类精度得到了提高;王笑影等[16]基于R语言和随机森林对Landsat 8 OLI影像进行土地覆盖的监督分类研究,该方法简单实用但仅用于中小区域土地的快速分类的情景;陈磊士等[17]以Landsat 8和Sentinel-1A融合后的数据为实验数据,分别采用卷积神经网络和BP神经网络算法分类,结果发现卷积神经网络具有较好的分类结果;赵亚杰等[18]运用随机森林算法对Sentinel-2和Landsat影像进行土地利用分类,实现了对地物的精细提取;陈义菁等[19]运用支持向量机算法实现了对Landsat影像的分类,对探究影响土地利用分类的变化提供了依据。大多数学者提出的机器学习算法虽然有较好的分类精度,但样本需求量大、成本高,受人为因素影响干扰较大。半监督学习具有仅使用少量标记样本就可以达到分类效果的特点,成为近年来研究的热点话题。半监督机器学习算法适用于小样本类型,它是同时使用标记和未标记的样本来拟合模型。在某些情况下,添加未标记的数据可能使模型的准确性提高,在其他情况下可能会使准确率降低[20]。

为了最大化有限使用在半监督机器学习算法中可用的监督数据,本文提出基于粒子群算法优化的半监督概率神经网络框架,将其运用在中分辨率的Landsat影像中,获得新乡市土地利用分类图。以新乡市1996年、2004年、2013年、2020年4期遥感影像为例,解译出不同时期的土地利用动态,通过监测近14年内的土地利用/覆盖变化,分析新乡市1996—2020年的土地利用转移矩阵,为新乡市人地关系研究和土地资源管理提供参考[21],以期实现新乡市各种土地利用资源与经济增长、社会稳定、生态和谐共同发展。

1 研究方法和数据来源

1.1 研究区概况

新乡市地理位置示意图如图1所示,新乡市位于河南省的北部,地处北纬34°53′~35°50′,东经113°23′~114°59′,南临黄河,与郑州市、开封市隔河相望;北依太行山,与鹤壁市、安阳市毗邻;西连焦作市,与晋东南接壤;东接濮阳市,与鲁西相连,是国家重要的综合交通枢纽,也是豫北的经济、交通、教育、商贸物流中心;年平均气温14℃[22],7月最热,平均气温27.3℃;1月最冷,平均气温0.2℃,年平均降水量656.3 mm,6—9月降水量最大,且多暴雨。新乡市自然条件和土地耕作条件好,是中国粮棉生产区、国家优质小麦生产基地和河南省畜牧生产加工基地,是农业大市[23]。截至2020年11月,新乡市的常住人口625.29万人,全市的农林牧业产值、粮食产量、居民消费水平大幅度提高。

图1 新乡市地理位置示意图Fig.1 Geographical location map of Xinxiang City

1.2 数据来源与预处理

根据新乡市的地理位置特点及获取遥感影像需满足的实验需求,本研究所使用的4期影像数据均来源于美国地质调查局(USGS)网站(https:∥earthexplorer.usgs.gov/),由于受到Landsat数据影像品质的影响,无法下载到同一个月份的影像。为了保证实验结果的可靠性,选取了时间上相对较接近的影像数据(6、7、8月)。选取1996年、2004年、2013年、2020年的6月或7月或8月的影像,所选的影像云量均在5%以下,该时期的影像品质较高便于土地利用/覆盖变化的研究。新乡市面积较大,覆盖研究区需要由行列号为123-36、124-35、124-36的3景影像拼接而成,空间分辨率为30 m,本次研究使用的数据分别为:1996年7月获取的Landsat TM数据,2004年6月获取的Landsat TM数据,2013年7月获取的Landsat OLI数据和2020年8月获取的Landsat OLI数据。

首先结合《全国遥感监测覆盖分类体系》建立的参考框架,综合考虑新乡市土地利用类型的特点,将研究区土地利用/覆盖类型确定为耕地、林地、水体、建设用地、草地、其他用地6类[24],遥感影像的解译如表1所示。具体的实验步骤为:首先使用ENVI 5.3软件对遥感影像进行辐射定标、大气校正、裁剪、拼接等预处理工作[25],使遥感影像的图像更加清晰、更加突出物体的标识;其次基于预处理后的遥感影像使用ENVI 5.3软件进行6类样本点的选取,将样本点和原始影像均转换为算法所需的.mat格式;然后基于Matlab 2019a平台运用粒子群优化概率神经网络的半监督算法、概率神经网络半监督算法进行分类,进行对比的随机森林法和最大似然法,则采用ENVI 5.3软件完成分类,并用ArcGIS软件制作新乡市的土地利用分类图;最后对新乡市1996—2020年土地利用的时空变化进行分析。实验流程如图2所示。

表1 新乡市土地利用分类及遥感解译特征Tab.1 Land use classification and remote sensing interpretation signs in Xinxiang City

图2 实验流程图Fig.2 Experimental flow chart

2 实验方法

针对遥感影像分类中需要大量标记样本和分类精度较低的问题,提出了一种以半监督为主体,将粒子群优化与概率神经网络框架相融合的一种分类算法。首先,利用粒子群优化算法生成最优参数;其次,利用上述最优参数的概率神经网络分类器,根据标注的训练样本计算每个像素的类别概率,预测每个像素的类别;然后利用香农熵筛选高置信度的无标记样本,并将其添加到原始训练集中进行新一轮的预测,自我训练使用模型自己对未标记数据的预测结果,将其添加到已标记的数据集中,选择置信度高的预测样本将其添加到已标记的数据集中,不断地重新训练这个模型,直到没有更多可信的预测结果为止。这种算法可以满足训练样本较少的情况,将大量无标记的样本转换为有标记的样本,同时使用标记样本和未标记样本数据来拟合出能够真实反映类别信息的分类器,分类成本较低,分类精度不断提高。本研究首先选取样本总数的5%作为训练样本加入到训练样本集中,依次增加样本数的10%进行迭代,算法流程如图3所示。

图3 实验算法流程图Fig.3 Flow chart of experimental algorithm

2.1 粒子群优化的概率神经网络

2.1.1概率神经网络分类器

概率神经网络(Probabilistic neural network, PNN)是SPECHT[26]在1988年提出的一种神经网络模型。这种模型是以指数替代神经网络常用的S型激活函数,进而构造出能够计算非线性判别边界的概率神经网络,该判定界面接近于贝叶斯的最佳判定面。概率神经网络主要用于分类和识别领域,其中在分类方面应用最广泛,这种网络模型已经被广泛应用在非线性滤波、模式分类、联想记忆和概率密度估计中[27]。这种模型分类错误率较低,风险比较小,但将其应用到Landsat遥感影像方面的研究较少。本研究将概率神经网络模型应用在遥感影像中,并对遥感影像数据中的地物信息进行分类,运用粒子群优化算法选取最优分类参数,使分类精度达到理想的结果。

概率神经网络的结构模型大致分为输入层、样本层、求和层和竞争层。在输入层中,网络计算输入向量与所有训练样本向量之间的距离;样本层里神经元的数量是训练样本的数量;求和层是将样本层的输出按类相加,相当于n个加法器;竞争层的神经元数量为1,最后的结果也是由竞争层输出,输出的结果只有1个1,其他的结果都是0。

2.1.2粒子群优化算法

粒子群优化算法具有快捷、收敛速度较快等优势[28],但作为一种仿生算法,粒子群优化算法数学理论基础尚不完善,因而需要在理论基础上进一步研究和讨论。

在粒子群算法中,每一个粒子群代表一个可能的解,整个种群通过竞争和协作实现多维空间中对最优解的探索[29]。在D维空间中,每个粒子被视作一个解,由当前位置X=(xi1,xi2,…,xiD)和当前速度Vi=(vi1,vi2,…,viD)组成,对于全局粒子群算法,粒子群Xi依据其历史最优值Pi=(pi1,pi2,…,piD)和全局最优值Pg=(pg1,pg2,…,pgD)迭代更新。每个粒子更新位置和速度可以表示为

(1)

(2)

式中t——当前进化的次数

c1、c2——正加速度常数

r1、r2——[0,1]之间的随机数

ω——惯性权重

2.1.3粒子群优化概率神经网络过程

概率神经网络的相关结构和对应神经元的数目由训练样本数据的数量和类别确定,网络模型的性能取决于网络的参数,而粒子群算法计算简单、收敛速度快,通过迭代获得最优解,可有效选取概率神经网络的最优参数。首先随机初始化粒子的位置和速度,构建网络,通过适应度函数f(xi)计算各个粒子的适应度,从而选取出个体的局部最优位置和全局最优位置,然后进行迭代,将得出的每个粒子的适应度与局部最佳位置的适应度相比,若当前适应度更大,则用当前粒子的位置作为全局最佳位置,不断进行迭代,更新个体的极值和群体极值。若满足条件则迭代终止,输出最优解;若未满足条件,则不断重复上述步骤直到满足条件为止。本文使用粒子群优化算法对概率神经网络的spread参数进行优化,利用粒子群的粒子间协同合作与知识共享对spread速度和位置进行准确定位,找到最佳的输入值,有效提高了概率神经网络分类模型的性能,从而最终能够得到最佳的土地分类结果,流程如图4所示。

图4 粒子群优化概率神经网络流程图Fig.4 Flow chart of probabilistic neural network for particle swarm optimization

2.2 自训练半监督机器学习算法

YAROSKY首先提出了自训练半监督算法[30],该算法是先用有标记的样本去训练一个分类器,本文所采用的分类器是概率神经网络,然后利用分类器对无标记的样本进行概率预测,根据获得的置信度,选择一些高置信度且无标记的样本加入到原始训练集中作为新的训练样本集,重复这个过程直到完成给定的迭代次数。本文算法在多次迭代的分类精度中选择了一个最大精度,避免迭代次数过多出现过度拟合现象。若有原始已标记样本集L={(x1,y1),(x2,y2),…,(xm,ym)},无标记样本集U={(xm+1),(xm+2),…,(xn)},迭代的次数为K,算法流程为:

(1)利用已标记样本集L训练得到模型p。

(2)利用分类器p对无标记样本集U进行标记,选择置信度较高的m个样本,记作L′,并将其从无标记样本中删除。

(3)利用L∪L′对选择的分类器进行反复训练。

(4)重复步骤(2)和步骤(3),直到迭代条件满足时为止。

3 实验结果分析

3.1 分类算法结果分析

选取新乡市1996年、2004年、2013年和2020年的Landsat影像作为实验数据,运用粒子群优化概率神经网络的半监督算法分类时,选取5%的训练样本,迭代3次每次增加总样本的10%扩充训练样本集,最后训练样本集总数为总样本的35%,剩下的用来检验分类精度。新乡市各年份各类别输入的样本总数和训练样本总数如表2~5所示。获得各年份的土地利用分类图,分类总体精度达到97%,Kappa系数均达到0.8。为了对比算法的分类精度,与随机森林、最大似然法和概率神经网络半监督算法进行了对比实验,各算法的分类结果如图5所示。

表2 新乡市1996年总样本、训练样本和验证样本数Tab.2 Total samples, training samples and verified samples in Xinxiang City in 1996

表3 新乡市2004年总样本、训练样本和验证样本数Tab.3 Total samples, training samples and verified samples in Xinxiang City in 2004

由图5可知,随机森林法和最大似然法在进行林地与其他用地的分类时,错分、漏分现象较为严重,较为明显的地方在图中已用红色区域圈出,概率神经网络算法分类效果较其他2种算法好。在较难区分的林地和草地中,本文算法可将2种地物区分出来,而随机森林法和最大似然法将2种地物归为1种地物来划分,概率神经网络算法将1996年的部分林地划分为草地,如图5b所示,最大似然法也未能将2020年林地准确区分出来,如图5o所示;在进行水体分类时,最大似然法和概率神经网络算法未能将2004年的水体准确区分出来,如图5f、5g所示;对于耕地和建筑物分类效果不能满足要求;对其他用地进行分类时,2013年分类错分最为明显,如图5k、5l所示,2种算法将新乡市西北部的区域几乎都认为是其他用地,分类效果较差。在精度评定方面本文选取总体精度和Kappa系数2个评价指标,从表6可以看出,和其他3种算法相比,本研究提出的半监督算法精度提高了1.25~6.57个百分点,Kappa系数也达到0.8以上,有效提高了分类总体精度,弥补了其他算法错分漏分的情况。

表4 新乡市2013年总样本、训练样本和验证样本数Tab.4 Total samples, training samples and verified samples in Xinxiang City in 2013

表5 新乡市2020年总样本、训练样本和验证样本数Tab.5 Total samples, training samples and verified samples in Xinxiang City in 2020

除此之外,本研究提出的算法因融合了半监督,所以适应训练样本少的情况,为了使实验结果对比更清晰,选择了一个小区域进行对比实验,各年份所选的区域如图6所示。分别选取了样本数的5%、10%,每次迭代过程中都会新加入5%的训练样本到测试集中作为训练样本集,在对比分析不同样本数的分类精度时发现,当选取训练样本数为总数的5%时,1996年、2004年、2013年、2020年分类精度依次为95.15%、95.93%、98.13%、95.57%;当选取样本数为10%时,分类精度依次为94.08%、95.45%、97.62%、95.97%。2种样本数量的分类精度均保持在理想状态,对比可以发现当选取的样本数量为5%时,各地物分类的精度也很高,和样本数量为10%在分类效果和分类精度上几乎没有差别,在较难区分的草地和林地,分类效果也较好,因此当训练样本较少时,本研究提出的算法仍然满足精度要求,各年份的土地利用分类如图7所示。

表6 新乡市土地利用/覆盖变化总体精度评价Tab.6 Overall accuracy evaluation of land use/coverage change in Xinxiang City

图6 各年份研究区位置图Fig.6 Location map of study area for each year

图7 不同样本数的土地利用分类图Fig.7 Land use classification maps for different sample numbers

3.2 土地利用变化时空特征

3.2.1土地利用时间变化特征

利用本文方法获得新乡市4年的土地利用分类图,然后利用ArcGIS平台的空间分析和统计功能,根据土地利用分类图,获得每一类的土地利用面积,分析土地利用变化的原因。新乡市各土地利用类型面积如表7所示。

从表7可以看出,在1996—2020年期间,耕地面积总体呈增加趋势,从1996年的4 377.86 km2增加到4 810.95 km2,增加了9.9%;建设用地面积从1996年到2020年增加了近38%;其他用地的面积相对减少,由1996年的729.40 km2减少到354.16 km2,面积减少了52%;草地面积由1996年的974.30 km2减少到465.21 km2,减少了52%;水体的面积几乎没有大的波动。由此看出,近14年来由于新乡市经济飞速发展,社会基础设施的不断增加、生活水平的不断改善、人口的不断增多导致对住房和工业的需求增多,从而导致建筑面积的不断扩张,其他用地面积不断减少。除此之外,由于人口数量的急剧增加,导致对粮食新的需求不断增加,耕地面积不断增加,草地面积急剧减少。

表7 新乡市各年份土地利用类型面积Tab.7 Area statistics of various land use types in Xinxiang City km2

土地利用转移矩阵是定量研究土地利用类型间相互转换的数量和方向的主要方法,它能够具体反映土地利用变化的结构特征和各类型间的转移方向。以新乡市1996年和2020年的土地利用数据为基础,利用ArcGIS软件进行叠加分析,获得土地利用转移数据,并利用Excel制作转移矩阵,如表8所示。结果表明,新乡市土地利用的主要变化趋势为耕地和建设用地面积在增加,其中耕地转换为建设用地的面积最大。具体的流向为:草地主要流转为耕地和建设用地;耕地主要流转为建设用地和其他用地;建设用地主要流转为耕地;林地主要流转为草地;水体部分被开发为建设用地,部分作为耕地;其他用地转换为耕地、草地和建设用地。

表8 1996—2020年新乡市土地利用转移矩阵Tab.8 Land use transfer matrix of Xinxiang City from 1996 to 2020 km2

3.2.2土地利用空间变化特征

由于耕地和建设用地是新乡市主要的2种土地利用类型,所以选取这2种土地利用类型来分析新乡市土地利用空间变化特征。1996—2020年间,新乡市土地利用变化总体上表现为耕地的增加和建设用地的扩张。新乡市1996—2020年建设用地和耕地空间分布如图8所示。

耕地是新乡市占比较大的土地利用类型,主要分布在地势比较平坦的东西部地区和南部的临黄河地区,西北部辉县山地较多、中部地区人口较多建筑用地分布较为密集,因此这2个区域耕地面积较少。总体来看,1996—2020年新乡市耕地面积总体呈增加趋势,增加了433.21 km2。从不同时期来看,1996—2004年耕地面积减少,如新乡市东南部地区长垣市。2004—2020年耕地面积有所增加,因为2005年新乡市进行了行政区划的调整,对农田实施了保护措施,耕地面积减少的趋势得到了改善。此外,国土资源部颁布的《国土资源部办公厅关于印发市县乡及土地利用总体规划编制指导意见的通知》和河南省颁布的《批转省国土资源厅关于做好土地利用总体规划修编工作指导意见的通知》这些政策,推进新乡市进行复垦和开发,这也是新乡市耕地面积不断增加的原因之一。

新乡市的建设用地主要集中在中心市区新乡县,并不断向外扩张。辉县市西北部紧邻太行山脉,山地丘陵面积较多,因此建设用地分布较少但却是林地的主要分布区域;新乡市南部的延津县和封丘县的建设用地变化不太明显;新乡市东南部的长垣市是重要的工业区,近年来建设用地面积也在不断增加。此外,新乡市是河南省中原地区的重要工业基地,工业生产总值较高,工业厂房的建设也在不断加快,进而导致建设用地增加。此外,人口的增长、城市化进程的加快、城市扩张均成为新乡市建设用地面积不断增加的原因。

4 结论

(1)提出了一种基于粒子群优化概率神经网络的半监督融合算法,该算法使用粒子群优化概率神经网络分类器,使得分类器的性能更加优越,还融合了半监督适合小样本的优势。该算法在分类时可以使用少量的标记样本,解决了传统分类方法对标记样本数量要求高、分类精度低、成本高、错分漏分严重的问题,相比于其他3种传统算法,分类精度提高了1.25~6.57个百分点。由此得出,本研究提出的机器学习算法应用在Landsat影像的复杂地形区土地利用/土地覆盖分类中有速度快、准确率高、外界因素影响较小等优势,表现出了较强的适应性,运用机器学习算法获得土地利用/覆盖信息,并制定合理的政策成为未来研究的热点。

(2)对新乡市近年来土地利用现状进行分析,有利于解决新乡市目前存在的土地问题并为未来的土地利用决策提供依据。新乡市1996—2020年间耕地面积和建设用地面积分别增加了433.21 km2和537.11 km2;其他用地面积和草地面积均呈现出减少的趋势,水体面积变化小,14年间仅减少了3.45 km2;在土地流转方面,草地流转为耕地和建设用地的面积最大,变化最明显,水体的转换情况不是很突出,其他用地多转为草地和建设用地,耕地多转为建设用地。1996—2020年新乡市土地利用变化主要受到城市化水平的提高,经济的增长以及国家的方针和地方的政策等多方面的共同影响。研究揭示了新乡市的近14年的土地利用变化特征,为该地区进一步合理开发和利用土地提供理论依据。

猜你喜欢
训练样本新乡市土地利用
城市土地利用变化模型研究进展与展望*
五台县土地利用变化研究
基于“风险—效应”的土地利用空间冲突识别与测度
土地利用变化与大气污染物的相关性研究
新乡市关工委慰问 凤泉区优秀基层“五老”代表
书法(大篆)
人工智能
新乡市知识产权局行政诉讼案再审胜诉
新乡市医疗纠纷人民调解委员会成立
基于小波神经网络的网络流量预测研究