基于岩石初分类体系的高光谱岩石分类研究

2024-03-07 01:51胡程浩吴文渊许林霞傅显浩郎夏祎何博闻钱俊锋
光谱学与光谱分析 2024年3期
关键词:岩石光谱精度

胡程浩, 吴文渊, 2*, 苗 莹, 许林霞, 傅显浩, 郎夏祎, 何博闻, 钱俊锋

1. 杭州师范大学信息科学与技术学院, 浙江 杭州 311100

2. 浙江省城市湿地与区域变化研究重点实验室, 浙江 杭州 311100

3. 中国煤炭地质总局浙江煤炭地质局, 浙江 杭州 310017

4. 浙江省地质矿产研究所, 浙江 杭州 310000

引 言

高光谱遥感经过几十年的发展, 技术手段逐渐成熟, 在岩石和矿物的识别和分类方面的应用吸引了众多学者的关注和研究。 高光谱技术因为能提供更为丰富的地物信息, 具有突出优异的探测能力, 因此在岩石矿物识别和分类领域具有广阔的应用前景。 例如利用实验室和航空高光谱遥感技术确定金矿化的位置[1-2], 矿物填图和区域地质调查[3-5], 对采矿区环境进行保护, 为矿区环境评价和污染治理提供依据[6]; 农业估算土壤物质环境监测[7]等领域也有应用。 表明高光谱遥感岩石矿物的识别分类在经济和生态方面具有很强的实践意义和应用价值。

自高光谱遥感技术诞生以来, 航空飞机平台高光谱传感器成为主要的数据获取来源, 但是基以这种数据开展高光谱岩石矿物的识别分类存在一些困难, 例如研究区范围内可能存在岩石单元混杂的情况, 岩石单元的混杂会给岩性填土时产生障碍[8]; 空间分辨率的局限会产生混合像元[9]; 野外大范围中存在植被覆盖和山体阴影, 蚀变作用、 生物作用以及人文活动的影响同样也会加大研究的难度以及数据的精准度[10]。 其次对高光谱数据的处理, 涉及到遥感器定标、 大气校正等一系列复杂处理过程, 同样也增加了研究过程的复杂度[11]。

基于以上现状, 更为理想的方法是依托实验室平台作为观测环境来探寻多种岩性光谱特征。 高光谱分辨率的光谱仪在实验室作为一种分析工具, 在前人研究中已被证实对矿物识别和光谱区分具有更好的效果[12-13]。 随后先进的传感器平台等的研发, 有利于多种关于岩石矿物等的光谱库的建立, 例如目前已有的岩矿HS光谱数据库[14], 热发射造岩矿物光谱库[15], 美国地质调查局发布的USGS光谱库[16], 以及包含0.4~15.4 nm的2 300种材料的光谱ASTER光谱库2.0版[17]。 近几年我国光谱与光谱库的研究中, 已收集有全国522个岩矿标本的光谱库, 还有学者建立了岩矿应用典型模型[18]。 光谱采集使用的仪器最早多是探测式光谱仪, 例如ASD光谱仪在对岩矿进行扫描时得到的是岩石表面单点的数据, 得到单一的曲线; 不过岩矿表面并非均质, 这种方法不利于更好地能代表岩矿进行识别和分类。 如今HySpex等新型成像光谱仪的研发, 有利于结合影像上多方位的光谱信息, 能够更好地提升岩矿识别的精确度和分类效果。 但是, 很多岩石因为矿物成分相近导致光谱容易混淆, 分类精度不高, 有待对岩石光谱特性进行进一步研究, 对光谱相近的岩石进行重新归类。

现有的高光谱影像处理方法, 在对高光谱影像预处理上, 例如主成分分析, 最小噪声分离等降维技术[19]; 高光谱影像的分类方法, 例如最大似然法, 光谱角匹配, 神经网络等[20-22], 这些方法应用于高光谱遥感岩矿识别与分类颇有成效[23-24], 同时新的机器学习分类方法涌现诸多研究成果。 柯元楚[25]等运用随机森林方法和EO-1 Hyperion高光谱数据进行区域的岩性分类, 取得较好的效果。 阳昌霞[26]等在无人机高光谱遥感为农作物精细分类中发现最小噪声分离(minimum noise fraction, MNF)降维变换后分类效率及影像分类精度均有提高, 同类影像随机森林分类结果精度比支持向量机更高。 Hossein[27]将主成分分析与随机森林算法结合组成完全组件选择(fully component selection, FCS)与单纯的随机森林(random forest, RF)模型相比, 发现FCS方法大大提高了模型的性能。 窦世卿[28]等发现多特征融合降维后的高光谱数据使用随机森林分类效果比主成分分析的效果更佳。 鉴于此, 本工作使用MNF的降维方法结合随机森林算法, 对比MNF降维前后的高光谱分类精度效果。

在实验室暗室双光束标准灯光源条件下, 使用推扫式轨道结合HySpex高光谱传感器成像仪对81种常见的岩浆岩和变质岩样本进行扫描成像, 获取到不同岩石样本在短波红外波段的光谱。 获取影像之后需要对高光谱影像进行处理分析, 从影像的光谱曲线中对岩石进行相似度匹配和初步分类。 分类前对高光谱数据进行降维和特征提取, 应用最大似然法和随机森林算法进行分类, 最后对分类的结果进行精度评价, 对比应用初分类前后以及两种不同分类器模型的岩石分类精度差异, 得到效果最优的分类方法。

1 数 据

使用的数据来自于HySpex高光谱成像仪实验室系统。 该实验室系统在暗室环境下, 安装HySpex传感器以及用户友好的桌面实验室设置, 包括平移推扫式工作台和VNIR-SWIR光源(图1)。 HySpex SWIR-384高光谱相机是为野外、 实验室和机载应用开发的最新并且先进的高光谱遥感相机。 其视场角为16°, 横纵视场角0.73毫弧度, 数据化16位, 空间像素数384, 自动对焦, 光谱范围涵盖950~2 500 nm, 范围内具有288个光谱段, 光谱分辨率为5.45 nm。

图1 实验的场景图

所使用的岩石样本如图2所示, 标记序号为1—81, 总共81块岩浆岩与变质岩样本均为新鲜采集的样本, 扫描影像中呈现的岩石表面均为新鲜剖面。

图2 岩石样本照片以及序号标注

各种岩石样本序号对应的名称信息如表1所示。

表1 岩石样本序号

通过HySpex SWIR-384高光谱相机的推扫成像, 获取了岩石样本的影像和光谱数据(图3), 还进行了岩石切面薄片的矿物成分分析, 用于参考样本中矿物的比例和成分, 有助于后续的岩石所含矿物光谱分析以及初步分类。

图3 HySpex假彩色合成图像

2 实验部分

研究的技术流程(图4)包括利用HySpex高光谱相机扫描岩石样本, 从而获取HySpex高光谱影像数据; 对影像高光谱影像进行校正等预处理, 得到相应的岩石HySpex高光谱影像反射率影像; 在岩石反射率影像中, 通过光谱信息对岩石光谱曲线特征分析, 建立相应的岩石初分类体系并进行特征选择与归类, 对影像进行MNF降维使得相应的波段减少和维度降低, 便于后期的分类。 基于光谱特征分析的岩石初分类体系, 选择相应岩石初分类类别并利用最大似然法和随机森林分类模型等分类器算法进行岩性分类识别, 最后应用混淆矩阵等对分类结果进行精度评价。

图4 研究技术路线

2.1 影像预处理

光谱影像的预处理过程包括影像辐射校正和白板反射率校正等。 白板反射率校正计算如式(1)

(1)

式(1)中,LTarget为目标观测值,LWR为标准参考板测量值,ρWR为参考板校正因子。

通过辐射校正和白板反射率校正等预处理, 得到了岩石的HySpex高光谱影像的反射率影像。 在岩石反射率影像中, 可以获取到每一块岩石每一个点位上的岩石反射率光谱信息, 相比于ASD获取到的光谱信息更加丰富, 同时也借助ASD扫描得到的光谱和HySpex一起作为分类的参考, 提高岩石的光谱信息的准确性, 以便于后续的初分类和特征波段的提取。 从岩石表面提取平均数量的样本(ROI)计算影像校正后的每块岩石的光谱曲线。

2.2 MNF降维

“最小噪声分离”(MNF)变换是由Boardman和Kruse提出的一种与主成分相关的线性变换方法。 MNF变换可用于将数据空间分成两部分: 一部分与大特征值和相干特征图像相关联, 另一部分与接近单位特征值和噪声主导图像相关联[29]。 最小噪声分离法便于确定数据的固有维度, 分离其中的噪声, 并降低后续处理的计算工作量, 被广泛应用于高光谱影像的预处理中, 例如处理高光谱航空航天等传感器获取到的数据都比较出色[30-31]。

运用ENVI软件中MNF变换工具, 对预处理后的影像进行降维处理。 根据特征曲线以及影像噪声, 选取的最佳分量数量为30。 影像降维处理后能使得波段减少, 更好用于后期的分类识别。

2.3 岩石初分类体系

预处理后的高光谱影像数据, 对81种岩石样本分别进行光谱采集和求平均处理, 再结合ASD光谱数据进行岩石光谱分析。 岩石是矿物的集合体, 岩石的光谱也是和所含矿物成分的光谱相关。 很多种类不同的岩石因为矿物成分的相近, 导致光谱特征也非常相近, 例如一些变质岩是沉积岩变质而成, 另一些是由岩浆岩变质而成, 成分中与原岩会有较大的相似性, 也是光谱具有相似性无法区分的原因, 也是岩石分类的难点之一。 初分类过程中, 基于岩石中矿物成分含量及不同光谱曲线特征, 依据岩石光谱整体的相似度和局部的吸收反射等特征波段的分析, 将81种常见的岩石重新建立了光谱对应的初分类体系如表2所示。

表2 初分类体系

体系中主要将81种岩石分成9个大组类别, 即Ⅰ类(编号为R1—R9), R1—R9的大组类别下再根据光谱特征细分为28个小类别, Ⅱ类(编号为r1—r28)。 几个大组类别中表现出ASD的光谱趋势特征大体一致, 以及岩石成分和颜色表现近似, 同一大组下的小组之间主要表现出在HySpex光谱趋势特征中的细微差异(图5)。

图5 初分类体系R1—R9岩石光谱(为了清晰起见, 光谱作了适当偏移)虚线表示为不同的小类, 横坐标为波长./μm, 纵坐标为反射率, 为了显示清晰运用了光谱偏移

工作中建立了光谱分析后的初分类体系, 用于后期分类训练样本的选择。 但是在初分类过程中会出现成分显示相近但是光谱特征不一致的情况。 例如R9大类中(9)玄武岩、 (10)气孔状玄武岩和(11)杏仁状玄武岩, 同属于玄武岩类但是实际样本光谱有明显差异, (9)玄武岩和(10)气孔状玄武岩的光谱特征较为相近, 但(11)杏仁状玄武岩样本由于受到其他充填物的影响因此光谱差异和前两者较大, 因此呈现的光谱特征有所差异; 在实地考察中更应该关注这一类岩石的物质成分以及光谱特征。

2.4 分类器算法模型

最大似然法又称作贝叶斯分类, 是以最大似然贝叶斯判决准则法作为判断标准, 依据统计方法的分类方法。 最大似然法分类是目前遥感影像分类方法中常用的经典分类方法, 已有研究表明最大似然法在岩矿的高光谱遥感分类中效果表现出色[32]。

随机森林(random forest, RF)是一种基于多棵决策树的机器学习中集成学习算法。 其运算过程首先是从原始训练样本中利用自助法(bootstrap)重采样技术得到新的训练样本集合训练决策树, 按以上步骤生成多棵决策树, 这多棵决策树模型就组成了随机森林分类器, 再使用多颗决策树对测试样本集进行分类, 最终将分类树结果进行汇总, 个别树输出的类别的众数决定其输出的类别(图6)。 随机森林算法在土壤以及土地利用信息的高光谱数据分类中表现出明显的优势[33-34]。 本研究利用Random Forest工具包进行预测分类,经过实验, 分类前设置需要生成树的数量参数为100, 节点分割的最小样本设置为1, 最小混杂度设置为0。

图6 随机森林分类示意图

以光谱分析后的初分类体系选取ROI岩石样本类别, 使用最大似然法和随机森林分类模型, 分别对原始的高光谱影像和MNF变换后的高光谱影像进行岩石分类。

2.5 分类精度评价

为了能够对岩石填图结果进行定量评价, 使用的精度评价方法为计算混淆矩阵(CM)和Kappa系数。

混淆矩阵(confushion martrix, CM): 又称为分类误差矩阵。 如果样本的类别数为T, 那么混淆矩阵就是一个T×T的矩阵。 被正确分类的情况由主对角线上的元素个数决定, 其个数越多, 则最终分类效果越好。

Kappa(K)系数: Kappa系数表示了结果内部的一致性, 其中既包含了被正确分类的像素, 也包含了混淆矩阵主对角线上各种漏分和错分错误, 更全面的反映了分类器的性能。 Kappa系数的公式为

(2)

3 结果与讨论

以光谱分析后初分类体系为基础, 每小类间取不同的类型ROI样本, 在每块岩石表面一方位置取数量均匀样本, 另一方位置取验证ROI样本, 对比原始的分类方法和使用初分类模型以及最大似然法与随机森林算法岩性分类的效果。

分类效果的评价方法采用计算混淆矩阵和Kappa系数得出每一种分类的精度(表3)。

表3 不同分类模型与分类算法的分类精度(%)/Kappa系数

从分类结果来看(图7, 表3), 降维后的特征数据, 基于初分类体系的分类结果都要优于未进行初分类的分类结果。 其中最大似然法进行初分类后提高了2个百分点, 随机森林法进行初分类后提高了6个百分点。 说明基于初分类体系的岩石分类能够提高岩石分类的准确度, 岩石样本间存在光谱特征相近并且可以归并分类的岩石类别。 从分类算法上看, 最大似然法在初分类前后的精度分别为83.21%和85.46%, 而使用随机森林分类效果达到83.63%和89.39%, 说明在分类类别较多和高维数据的情况下, 随机森林能处理维度较高的数据, 具有决定类别的评估变数误差的优势, 总体优于最大似然算法。 随机森林算法使用未降维的原始数据进行分类, 在初分类前后的精度分别为68.40%和78.88%, 与经过MNF的分类相比精度较低, 因此使用MNF能够提升随机森林分类器的精度与性能。

图7 不同分类方法对应的分类结果影像

在基于初分类结果中(图8), r4、 r3、 r6、 r9、 r12、 r15、 r18整体的生产者精度和用户精度都很高, 即分类的效果最好, 分类精度达到95%以上甚至接近100%。 r5的分类精度较低为38%, 其次r22、 r24、 r25、 r27和r28的分类效果一般, 分类精度在60%~80%左右之间, 其余的小类分类精度都在80%以上。 说明初分类体系中r3、 r4、 r6、 r9、 r12、 r15、 r18有较高的类别内的相似性, 使用随机森林分类算法能够很好地将特征相似岩石进行归类, 明显减少了岩石分类中同一块岩石分类结果容易混淆的现象。

图8 基于初分类体系MNF降维后的特征数据随机森林分类算法分类精度图

3 结 论

高光谱岩性分类方法研究是高光谱研究领域中的一个重要方向。 本研究基于岩石的光谱特征角度, 利用HySpex高光谱成像仪实验室系统, 对81块常见的岩浆岩与变质岩岩石样本进行了光谱提取和岩石分类试验研究。

基于光谱特征初分类的MNF特征提取结果进行随机森林算法分类, 与传统的最大似然法模型分类进行对比, 通过分类精度评价得到未进行初分类的最大似然法、 初分类的最大似然法、 初分类的随机森林算法的分类精度分别为83.21%、 85.46%和89.39%。 证明基于光谱特征的初分类结合随机森林算法能够很好的提升高光谱岩性分类的分类精度。

岩性混淆是岩石分类过程中较普遍存在的问题。 尝试先对实验室岩石样本进行小类归类, 其好处一是提高了整体岩石分类的精度; 二是可以挖掘岩石之间光谱的相似性, 找到其中光谱特征容易混淆的岩石, 为今后的岩性光谱分类提供参考。

实验室环境下进行多种岩性光谱研究相比于室外的光谱研究具有更理想化的条件, 在实际野外高光谱影像大面积区域的岩性信息提取应用中, 还需要考虑更多的实际影响因素。 虽然随机森林算法取得了较好的效果, 但在特征波段数量选取, 样本选取和数量上存在一定的主观性。 因此在分类前的信息波段选取、 样本的选择和样本的数量有待讨论。 岩石样本只能代表该一类岩石中现实存在的一种岩性, 不同地区可能会出现同一类岩石具有不同的岩石成分组成和性质的情况, 未来可以采集岩性多样化的同类岩石样本进行研究。

猜你喜欢
岩石光谱精度
基于三维Saab变换的高光谱图像压缩方法
第五章 岩石小专家
3深源岩石
一种叫做煤炭的岩石
海藻与岩石之间
基于DSPIC33F微处理器的采集精度的提高
GPS/GLONASS/BDS组合PPP精度分析
星载近红外高光谱CO2遥感进展
改进的Goldschmidt双精度浮点除法器
苦味酸与牛血清蛋白相互作用的光谱研究