半监督空谱局部判别分析的高光谱影像特征提取

2024-03-05 08:15吕欢欢黄煜铖张辉王雅莉
液晶与显示 2024年2期
关键词:光谱聚类精度

吕欢欢, 黄煜铖, 张辉, 王雅莉

(1.辽宁工程技术大学 软件学院, 辽宁 葫芦岛 125105;2.湖州师范学院 信息工程学院, 浙江 湖州 313000)

1 引言

高光谱遥感图像的波段通常连续且多达十个甚至数百个,光谱分辨率高,具有较强的地物分类和识别能力,目前广泛应用于环境监测、军事侦察和城市规划等领域[1]。但是现有的高光谱图像日益多元化且数据量呈指数级增长,波段间的相关性和冗余度高[2],在地物进行分类任务时,易出现“维数灾难”[3]的问题。对高光谱图像进行特征提取是解决这个问题的途径之一。特征提取不仅可以降低波段间的相关性和冗余性,提高分类精度,而且能提升高光谱图像的处理效率以及减少空间存储的成本。

特征提取算法按照数据结构可划分为基于全局结构的特征提取算法和基于局部结构的特征提取算法。主成分分析(Principal Component Analysis,PCA)[4]和线性判别式分析(Linear Discriminant Analysis,LDA)[5]都是经典的全局线性方法。PCA以方差最大化准则寻求达到全局最佳逼近的投影方向,LDA考虑了有类标数据的类内和类间判别信息。这些方法只考虑了数据的统计性质,无法真正揭示高光谱数据集的非线性多模结构[6]。为了更好地分析数据内在属性,流形学习的发展揭示了数据的几何结构,代表性的算法为等距离映射[7](ISOMAP)、局部线性嵌入[8](LLE)和拉普拉斯特征映射[9](LE)。它们是局部特征提取的主要算法,3种方法都属于非线性投影且考虑了高维数据在低维空间中的某种局部特性来描述其内在流形,将样本外映射到相应的低维空间中,但无法给出具体的投影矩阵。为了解决样本的泛化性问题,将LLE和LE线性化为局部保持投影(LPP)[10]和近邻保持嵌入(NPE)[11],通过近邻图来揭示数据的局部近邻关系,在低维空间中也保持局部几何结构。基于图框架的观点,已经发展出许多先进的方法来更好地揭示数据的内在属性,如边界Fisher分析[12](MFA)、局部Fisher判别分析[13](LFDA)、正则化局部判别嵌入[14](RLDE)和局部几何结构Fisher分析[15](LGSFA)等。

上述算法都属于无监督算法或者有监督算法。无监督算法一般很难达到预期的结果,但可以发现隐藏的非线性结构的数据信息;有监督算法需要大量的标记样本,但是高光谱数据标记成本高并且不易获取。因此,结合有监督和无监督算法的半监督算法成为研究的热点话题。根据图学习理论,设计的半监督算法有半监督图学习(SEGL)[16]、半监督局部Fisher判别分析(SELF)[17]和半监督局部判别分析(SELD)[18],它们都是在LDA原理上构建起来的。考虑了数据的流形结构的算法即半监督子流形保留嵌入[19](S3MPE)和半监督稀疏流形判别分析[20](S3MDA),增强本征特征的表达。这些算法充分利用少量标记样本的判别信息来保持数据集的可分性,深入发掘未标记样本包含的局部流形结构信息或方差信息,提高了特征提取效果,提升了分类能力。

上述算法仅利用了光谱数据,而忽略了高光谱中地物空间分布的特征。高光谱具有“图谱合一”的特点,空间相关性强,相邻像素点具有明显的光谱相关性,因此,学者们开始融合高光谱数据的光谱信息和空间信息来提高地物分类性能[21]。Chang等人在SELD的基础上提出了NNSELD[22]算法。侯榜焕等人通过加入空间近邻散度矩阵,提出了S3ELD[23]算法。黄鸿等人提出了一种半监督多图嵌入的高光谱影像特征提取算法(SSMGE)[24],注重高维空间的位置关系,构建监督和非监督超图及普通图表征数据间的复杂几何结构。这些方法都注重流形重构过程中近邻点的空间信息,大多采用监督和无监督方法联合使用的方法,但是忽略了可利用的标记样本数过少的问题以及在低维空间矩阵中保持与原来同样的空间结构特性。

鉴于以上问题,本文提出了一种半监督空谱局部判别分析的高光谱影像特征提取算法,通过利用高光谱的近邻像元的空间特征提升分类效果,主要思想是利用像素融合后重构的空谱特征,增加正则化项至类内类间散度保持无标记样本的空间一致性。为了获取无标签样本的聚类结构,算法首先采用模糊C均值聚类算法求解聚类伪标签。与其他聚类算法相比,该算法不需要将某类确定为哪类,通过迭代进行聚类筛选最终的聚类中心。算法的提出大幅降低了人工成本,融合后的像素有效利用了高光谱数据的空间信息,保持不同类的区分能力并进行有效降维。为了验证算法的有效性,在实验阶段通过不同算法在不同标记样本、不同维数下利用支持向量机(SVM)分类器进行分类操作,最后在Pavia University和Indian Pines数据集上进行实验验证,结果表明分类精度得到了进一步的提高。

2 相关算法及构造

2.1 空间邻域信息构造

假设含有n个d维数据的高光谱数据集为Xn={x1,x2,…,xi,…,xn},对应的低维嵌入为Z={z1,z2,…,zi,…,zn},zi∈Rr且r<d。

由于高光谱图像的空间特征就是空间近邻像元在很大程度上属于同类地物,同类地物往往呈块状分布,距离越近的地物从属于同一类别的概率越大。近邻像元不但具有较强的光谱相关性,还有显著的空间相关性,且距离越近,相关性越强。在低维嵌入的过程中,依然保持数据集的像元的空间近邻结构。

令Ωi表示像元xi的近邻空间,空间内的近邻点为xij。邻域空间是以像元xi为中心的边长为ω×ω的矩形区域。ω是空间因子,表示空间近邻的大小,取奇正整数。近邻点的个数为s=ω2-1。如果像元xi处于边缘或者角落,用中心像元xi代替缺失的像元。根据空间一致性原理,本文将xi与附近空间内的点结合进行像元融合,弥补单一像元度量的不足,减小噪点干扰,降低数据冗余。图像上任意像元xi融合周围近邻点的集合表示为:

式中:ξ0表示任意像元xi的光谱矢量;ξ1,ξ2…,ξs表示在像元的近邻空间内其他像元xij的光谱矢量;将矩阵Q按列堆栈起来得到一个一维列向量F,并将F作为重构像元xi'的空-谱特征。重构后空谱特征的像元集合为Xn'={x1',x2',…,xi',…,xn'},其表示方式如图1所示。

引入光谱信息散度[25]分析近邻像元的相关性。像元越相似,构造近邻散度时权值越大。重构后xi'的近邻像元与xi'之间的光谱信息散度表示为:

S代表相对熵,概率向量可表示为

2.2 空间局部Fisher判别分析算法

传统经典算法FDA只有当数据呈现单模态表示的高斯分布时,才具有较好的降维效果。但这种算法均是基于高光谱图像数据是全局线性结构的假设前提,无法揭示数据的内在非线性结构特性。为解决这个问题,提出类内散度局部化FDA算法(LFDA),克服了同类样本存在独立聚类或者一些噪声这种多模态问题。

LFDA降维的子空间不受类别约束。传统FDA降维最高为c-1,受限于类间散度矩阵的秩。高光谱数据集中有类别标签样本xa(a=1,2,…,m),类别标签记为ya∈{1,2…,C},通过空间邻域重构后的样本所属集合为Xm'={x1',x2',…xa',…,xb',…xm'},加入空-谱信息后的LFDA类内散度矩阵和类间散度矩阵可表示为:

公式(3)、(4)转为矩阵可表示为:

式(5)、(6)中,类间散度矩阵和类内散度矩阵的拉普拉斯矩阵可表示为:

Dslb和Dslw是对角矩阵,其第a'个对角线元素表示为:

融合后的像元由原来的标记样本进行约束。训练样本xa'和xb'之间的热核参数相似度量Aa'b'可表示为:

2.3 模糊C均值聚类算法

模糊C均值聚类算法是由Bezdek提出的基于模糊理论的聚类算法。它的思路是使被划分到同一类的对象之间的相似度达到最大,不同类对象之间的相似度达到最小。Xn={x1,x2,…,xi,…,xn}∈Rd×n表示假设待划分的数据集,将数据集里的元素划分为c(2≤c≤n)类,V={v1,v2,…,vk,vg,…,vc}表示聚类中心。FCM算法的聚类准则为使最小化聚类目标函数J可表示为:

式中:Xn的模糊C划分为可用隶属度矩阵U=[uki]c×n表示,uki表示第i(i=1,2,…,n)个数据点属于第k=(1,2,…,c)类的隶属度,满足约束条件p∈(1~∞)为隶属度的加权指数,控制由此产生的模糊性分区,调整类之间的分类程度。是样本点xi和聚类中心vk之间的欧氏距离。

利用拉格朗日求解隶属度和聚类中心,可表示为:

由上述两个必要条件,模糊C均值聚类算法是一个简单的迭代过程。对参数进行初始化后,求解FCM算法中的聚类中心vk和隶属度矩阵U,使目标函数达到最优。

3 基于空谱特征的半监督局部Fisher判别分析算法

空间LFDA算法的目的是寻找一个投影矩阵,使类内样本彼此之间相互靠近,类间样本彼此相互远离。但是,当训练标签样本过少时,空间LFDA算法大概率会出现过拟合的现象。为了防止过拟合现象的产生,针对如何使用高光谱数据内的大量无标签数据的结构特性,本文利用模糊C均值聚类算法对重构后的样本集合进行伪标签约束。为了保持聚类结构的一致性,将重构后的包含空间信息的样本标签以正则化项的形式合并到空间LFDA中。

3.1 无标记样本伪标签构造

步骤一:设置q=0,初始化聚类中心V(q);

步骤二:更新U(q);

∀k,g表示聚类中心,i'表示高光谱数据集重构后的像元,如果d(xi',vk)(q)>0,则

步骤三:更新聚类中心v(q+1);

根据U(q)或V(q+1),样本xi'的类别可表示为

通过上述聚类算法,我们得到重构后像元集合Xn'的类标签集合为

3.2 正则化约束项构造

本文通过FCM聚类算法对所有重构后的训练样本Xn'进行聚类分析。聚类个数c不需要与类别数C相同,得到像元的聚类标签集合为这能使其更好地适应多模态数据分布情况。根据以上表述构建局部聚类的类间散度Sulb和局部聚类的类内散度矩阵Sulw,描述方法可表示为:

式(20)和式(21)中,Wulb、Wulw是n'×n'的矩阵,可表示为:

3.3 半监督空谱局部判别分析

为了合理应用高光谱具有无标签样本所含的结构信息,这里将上面两个正则项分别合并到空间LFDA算法的类间散度和类内散度中,合并后的半监督类间散度和类内散度矩阵可表示为:

式中:Sslb、Sslw为空谱融合后有标签测试样本类间散度和类内散度矩阵,Sulb、Sulw为空谱融合后全体测试样本的聚类类间散度和聚类类内散度矩阵。β∈[0,1]为半监督程度参数,用来控制有标签样本和无标签样本的重要性。半监督空谱LFDA算法优化目标函数可表示为:

S4LFDA的目标函数可以用式(26)的广义特征值问题进行求解运算:

假设广义特征值按降序排序如下:λ1≥λ2…≥λr,最终,Hs4lfda可以表示为:

半监督空谱局部判别分析的高光谱影像特征提取算法的具体过程如下:

输入:Xn∈Rd×n为高光谱数据集训练样本集,n表示样本集合的大小,d为高维高光谱样本的维度,窗口大小为ω,模糊C聚类的类别数为c,降维的维度为r。

(1)对数据集按照空间窗口ω的大小进行像素融合。

(2)求解空间像素融合后有标签样本类间散度矩阵和类内散度矩阵。

(3)对空间融合后的全体训练样本进行模糊C均值聚类。

(4)求解融合后全体训练样本的聚类类间散度和聚类类内散度。

(5)求解广义特征值问题,得到对应的特征向量φ1,φ2,…φr。

输出:低维数据Y=HTX。

4 实验数据及设置

4.1 实验数据集

为评估本文S4LFDA的分类性能,使用具有代表性的Pavia University[26]和Indian Pines[27]高光谱遥感数据集进行分类实验。

Pavia University数据集的图像是2002年由反射光学系统成像光谱仪获取得到,图像大小为610像素×340像素,空间分辨率为1.3 m。包含了光谱范围内的115个波段,光谱分辨率为4~12 nm。去除噪声影响严重的波段后,剩余103个波段用于实验。该图像参考数据样本共计42 776个,含有9类地物信息。其假彩色图像和真实地物信息如图2所示。

图2 Pavia University数据集Fig.2 Pavia University dataset

Indian Pines数据集的图像由AVIRIS传感器在美国印第安纳州的一块印度松树测试地获得。图像大小为145像素×145像素,空间分辨率为20 m。包含了光谱范围内的224个波段,该图像参考数据样本共计10 249个,含有16类地物信息。其假彩色图像和真实地物信息如图3所示。

图3 Indian Pines数据集Fig.3 Indian Pine dataset

4.2 实验设置

为了验证本文方法的有效性,实验中选取Baseline、LPP、LFDA、SELF、基于混合因子分析的有监督和无监督的特征提取算法[28](S2MFA)、RLDE和基于SLIC超像素的稳健主成分分析[29](SURPCA)与本文方法进行比较。其中Baseline是直接利用原始光谱数据,LPP是无监督特征提取方法,LFDA是有监督特征提取方法,SELF、S2MFA、RLDE和SURPCA是半监督特征提取方法。正则化参数α在{0,0.1,0.2,…,0.9,1.0}中选取,达到SELF算法的分类精度最优。S2MFA中的参数混合成分数量M对OA不敏感,潜在因子设置在25~50之间时保持稳定。RLDE算法中空间窗口大小ω设置为7,正则化参数β设置为0.7,空间均值滤波的滤波度设置为γ0=0.9。SURPCA中超像素数在100~200之间选取为最优。为了确保对比实验的公平性,各种对比算法参数均通过交叉验证调到最佳,低维嵌入特征维数设置为30。

在特征提取时,在数据集中每类地物随机选取10,20,30个标记样本,然后从剩余像元中随机选取3 000个无标记样本,用作训练样本组成训练样本集,剩余样本作为测试样本集。对于地物数量较少的样本最多选取1/2作为测试集,其中无监督和半监督方法采用整个训练集进行训练,而有监督方法只利用标记样本进行训练。首先通过训练数据集计算特征提取方法的投影矩阵,然后得到测试样本集的低维嵌入特征,最后采用支持向量机(SVM)分类器进行分类。采用总体分类精度(Overall Accuracy, OA)、平均分类精度(Average Accuracy, AA)和Kappa系数作为分类结果的评价指标。为了保证实验结果的可靠性,实验在每种条件下重复进行10次,并取10次结果的平均值作为最终实验结果。

4.3 实验结果及分析

4.3.1 Pavia University数据集上的实验结果及分析

根据实验设置,各方法在Pavia University数据集上不同维数下的总体分类精度如图4所示,不同标记样本数量下的最优总体分类精度见表1。

表1 不同样本标记下各类算法的总体分类精度(平均精度±标准差)Tab.1 Overall classification accuracy of various algorithms under different sample markers (mean accuracy±standard deviation) %

图4 不同算法在不同标记样本、不同维数下的分类精度。Fig.4 Overall accuracies of different algorithms with different labeled samples in different dimensions

由图4可知,随着低维嵌入维数的增加,各方法的总体分类精度不断提高,并逐渐达到最优值,之后出现精度平稳或下降的现象。这是因为随着嵌入维数的增多,其所包含的地物判别特征越来越丰富,从而分类精度也相应提高;但当有足够多的特征来描述地物信息时,如果持续增加特征的维数,有可能引入噪声或冗余信息,导致分类精度不再提高,甚至出现下降现象。由图4可知,本文算法在低维度的分类精度增长缓慢,但是在10~25维时,分类精度高于其他算法且分类精度略有上升,逐渐达到最高的分类精度。保留30维特征时,每类算法都取得了最大的分类精度,符合高光谱分类的特点。表1表示维数约简至30维时,各个算法的分类精度。由表1可知:

(1)随着标记样本数量的增加,各方法的总体分类精度也随之提高。这是因为训练样本越多,特征提取时从样本数据中获取的先验知识越丰富,进而提取出低维嵌入特征的判别能力越强,其分类结果越高。与其他算法相比,S4LFDA算法的10次实验的总体分类精度的平均值高于其他算法。S4LFDA高出其他算法约1%~13%,且训练样本越少,相较于其他算法分类精度提高越明显。

(2)各种特征提取方法在保留特征维数为30的情况下,均可以获取最优的分类精度,并且分类精度都在一定程度上高于Baseline方法,说明了这些特征提取方法的有效性。

(3)LFDA由于利用了样本的类别信息,分类精度高于无监督特征提取LPP方法,但低于其他几种半监督特征提取方法。这是因为半监督方法同时利用了有标记样本和无标记样本,有效解决了有标记样本不足的问题。

(4)在其余几种半监督特征提取方法的比较中,对比SELF、S2MFA、RLDE和SURPCA可得,同一地物,除了Asphalt,都有所提高。尤其是Bitumen的精度显著提高,因为这片区域具有集中分布的特点。本文算法对于成片状分布的区域有更高的分类精度,因为引入了空间信息并极小化保持投影空间的类别可分性,增强了在低维空间内的属于同一类别像元和同一空间像元的聚集性,从而提高了分类效果。

(5)本文方法在不同的标记样本数目下,分类精度始终是最优的。这是因为该方法在低维嵌入时,充分挖掘了影像的空间信息,利用有标记样本极小化类内散度矩阵和极大化类间散度矩阵,保证了低维空间类别的可分性。同时利用聚类方法对无标记样本进行聚类,生成伪标记信息,构造无标记样本的类内和类间散度矩阵来约束原始局部Fisher判别分析的目标函数,提高了特征的判别能力,改善了特征提取的结果。

为探索各方法在各类地物上的分类性能,实验中随机在每类地物中选取30个标记样本、300个无标记样本作为训练样本。对于地物数量较少的样本最多选取1/2作为测试集,剩余作为测试样本。表2为各方法在Pavia University数据集上每类地物的分类精度、总体分类精度(OA)、平均分类精度(AA)和Kappa系数的对比。由表2可以看出,各方法对于大部分地物都有较好的区分度,相较于地物Meadows和Bitumen识别的其他算法,本文算法的精度有显著提高,提高约6%~40%,这表明本文提出的算法对于大片同种区域以及地物边缘化有着更明显的感知力。图5为其对应的分类结果图。可以看出,Bare Soil区域分类变得比其他算法更加光滑。

表2 Pavia University数据集上每类地物在不同算法下的分类精度Tab.2 Classification accuracy of every feature under different algorithms in Pavia University dataset %

4.3.2 Indian Pines数据集上的实验结果及分析

在Indian Pines数据集上也进行了相同的实验,图6表示不同对比算法在不同维度下的分类精度曲线,表3表示每类算法对应的最高OA精度。

表3 不同样本标记下各类算法的总体分类精度(平均精度±标准差)Tab.3 Overall classification accuracy of various algorithms under different sample markers (mean accuracy±standard deviation) %

图6 不同算法在不同标记样本、不同维数下的分类精度。Fig.6 Overall accuracies of different algorithms with different labeled samples in different dimensions

不同算法对Indian Pines数据集各类地物的分类精度如表4所示。每类选取30个有标记样本,采用SVM分类器得到表4中数据结果。从表4可以看出:

表4 不同算法对Indian Pines数据集各类地物的分类精度Tab.4 Classification accuracies of every feature under different algoriyhms in Indian dataset %

(1)与其他无监督算法相比。S4LFDA与LPP算法比对可知,前者的OA和Kappa系数都优于后者,本文算法有效地利用了样本的标记信息,提高了样本之间的相似度,显著提高了样本的分类效果,也验证了半监督思想的可行性和样本空间利用的重要性。

(2)与LFDA算法相比。S4LFDA与LFDA算法比对可知,前者的OA和Kappa系数都优于后者,进一步验证了半监督思想以及利用空-谱信息构建权重关系的可行性,弥补了大量无标记样本无法利用的问题,充分发挥了算法中嵌入的无标记样本所包含结构信息的作用,使本文算法即使在训练标签样本较少的情况下,依然能获得很高的分类精度。

(3)与其他监督算法相比。S4LFDA与SELF、S2MFA、RLDE、SURPCA算法比对可知,除了第6、7类地物,S4LFDA分类精度相较于其他算法都有所提高,尤其是第12类地物提高显著,比其他半监督算法高出9.55%~20.84%。鉴于表现同谱异物现象在高光谱影像数据中,采用S4LFDA算法提取后的分类精度高于S2MFA、SURPCA。与其他算法对比得出:S4LFDA可以全面考量每个样本的空间关联性、光谱相似性,在低维空间中影像数据的空间区分效果更好,从而得到的分类结果较好

不同算法在Indian Pines上的分类结果图如图7所示。本文算法噪声点少且大片区域地物较为光滑,地物Woods和Soybean-mintill几乎没有错分点。其他算法不同地物正确分类的地物不尽相同,有利有弊,本文算法的地物分类精度更高。

图7 Indian Pines数据集上各类算法的分类识别图Fig.7 Classification identification diagram of various algorithms on the Indian Pines dataset

4.3.3 空间邻域大小对总体分类精度的影响

S4LFDA算法利用了空间的一致性,将空间像元点重新融合成新的像元,因此邻域的大小与样本有着密切的关系。为探索本文方法参数中空间窗口ω对分类精度的影响。分别从Pavia University和Indian Pines数据集中每类地物选取15个标记样本进行实验,其余作为测试样本,ω的取值范围设置为3,5,7,9,11。可以从图8中观察到,随着窗口大小的增加,空间邻域内的像元逐渐增多,会引入更多不属于同一地物的像元,像元的融合向量偏离了同类地物的光谱特征,导致融合像元在低维空间投影时也偏离同类地物,所以精度会逐渐降低。例如Pavia University数据集的9类地物中大多呈现零散分布,地物砖块和地物沥青道路更呈现条状分布,所以选择较小的邻域空间ω包含空间较少,不易混入不同地物的像元,邻域空间ω的增大会使分类精度逐渐降低。

图8 不同窗口大小下的分类精度Fig.8 Classification accuracy under different window sizes

4.3.4 半监督系数对总体分类精度的影响

半监督系数对总体分类精度的影响如图9所示。由图9可知,随着半监督系数的增加,Pavia University和Indian Pines数据集的地物分类精度呈现先增加后减少的趋势。这是由于随着半监督系数的增加,样本标记过拟合现象减弱,嵌入的无标记样本的信息逐渐增加,提供的空间结构信息愈来愈多,因此精度有所提高。但是随着半监督系数的增加,有标记样本系数的指导能力逐渐削减,无标记样本提供的信息有限,导致精度有所下降。

图9 半监督系数对总体分类精度影响Fig.9 Effect of semi-supervised coefficients on overall classification accuracy

4.3.5 有无标记样本数目对总体分类精度结果的影响

使用两个实验验证不同样本数对分类精度的影响效果。实验一:首先从Pavia University数据集和Indian Pines数据集中任何类地物抽样选取10个被类别标记的样本,再从所有样本中选取无标记样本(100,500,1 000,1 500,2 500,3 000,3 500)作为训练集,余下没有被选取的样本作为测试集进行实验。实验二:从两种数据集每类地物中选取有标记的样本(10,20,30,40,50,60,70),再从高光谱影像余下的样本中选取3 000个无标记的样本,合并之后当作训练集,余下的样本作为测试集验证实验。两种高光谱影像下不同的无类标数(10个有类标样本点)的分类精度如图10所示。从图10可以看出,当每种地物的类别标记数为10用于S4LFDA算法时,伴随无标记的样本数目的增加,采用支持向量机分类后,OA和Kappa的变化趋势。

图10 无标记样本(10个有类标样本)的分类精度Fig.10 Classification accuracy unlabeled samples (10 labeled)

由图10可知,如果每类地物有类标样本设置为10时,随着没有类标的样本数的增长,OA和Kappa的精度展现了上升趋势,说明提出的方法可以有效利用无标记样本空间的信息。随着无类标数增长接近3 000时,OA和Kappa的精度增长极其缓慢甚至不再增加。这是因为无标记样本提供的空间结构信息有限,再增加样本效果提高不明显且耗费训练时间。

图11表示S4LFDA选取无标记训练样本为3 000应用在本文算法时,支持向量机(SVM)分类后的总体分类精度(OA)和Kappa系数伴随有类别标记样本数的变化趋势。

图11 有标记样本(3 000个无标记样本)的分类精度Fig.11 Classification accuracy labeled samples (3 000 unlabeled)

由图11可知,设定无类标样本的数目不变,伴随有类标样本数目的增加,OA和Kappa也相应增加。接着发现每类地物有标记的样本数达到30之后,分类精度变化不显著。这是因为随着有标记样本数目的增加,能够获取样本的先验知识也愈加丰富,在特征提取过程中使样本数据的总体分类精度也越高。随着有标记样本的增加,可能会出现类似全监督算法一样的过拟合问题,且标记都需要人为操作,引入不必要的噪声会导致精度的下降。

4.3.6 聚类数目及模糊系数对无标记样本的影响

Pavia University数据集上数目和模糊系数对精度的影响如图12所示。由图12可知,模糊个数c=70、模糊系数p=2时,得到最高总体分类精度为95.90%。随着聚类个数c的增加,精度逐渐增大,最高总体分类精度也在逐渐增大。聚类个数在10~50时,精度提升显著,之后精度基本保持不变。因为聚类数目越多,可供划分的无标签样本也越细致,可以利用的无标记样本的局部信息也越多。从图12中可以观察到模糊系数p设置为2时,总体分类精度达到最高。后续实验中将模糊系数设置为2。

图12 Pavia University数据集上聚类个数和模糊系数对精度的影响Fig.12 Effect of the number and fuzzy coefficient on Pavia University dataset

5 结论

本文利用高光谱图像的空间一致性,提出一种基于空谱重构的半监督Fisher判别分析算法,核心是利用高光谱空间像元融合后重构的空谱特征进行维度约简,利用少量的标记信息以及大量的无标记空间样本像元保持高维的空间结构特征,使数据包含的判别信息和空间近邻结构得以在低维子空间中保存,总体分类精度达到95.60%和94.38%,有效提高了地物分类能力。相比于最近较火的深度学习算法,本文算法整体模型运行速度较快,参数调整简便,实际开销小,在现实应用中内存占比低,可以更好地对高光谱遥感数据集进行有效的分析。

猜你喜欢
光谱聚类精度
基于三维Saab变换的高光谱图像压缩方法
基于DSPIC33F微处理器的采集精度的提高
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
GPS/GLONASS/BDS组合PPP精度分析
星载近红外高光谱CO2遥感进展
一种层次初始的聚类个数自适应的聚类方法研究
改进的Goldschmidt双精度浮点除法器
苦味酸与牛血清蛋白相互作用的光谱研究
铽(Ⅲ)与PvdA作用的光谱研究