IPCLRC 约束的时序地表覆盖数据不一致探测

2024-01-29 14:43吕嘉程陈斐仲尹文谭竟

地理信息世界 2023年4期

吕嘉程，陈斐，仲尹文，谭竟

东华理工大学测绘与空间信息工程学院，南昌 330013

1 引言

地表覆盖是地球表面各种物质类型及其自然属性与特征的综合体（陈军等，2011；段艳慧等，2023；梁锦涛等，2023）。对于研究全球变化、评价可持续发展及建立具有预测功能的模型来说，建立一个准确的、长时间序列的全球地表覆盖数据具有重大的现实意义（张肖，2020；王梓璇等，2021；Wang 等，2022）。数据不一致是数据对象之间存在矛盾或冲突（简灿良等，2013）。时序地表覆盖数据在生产过程中，因原始影像、分类方法、分类人员等方面的差异，同一地区在不同时期地表覆盖数据产品上存在属性分类不合理的情况，称为时序地表覆盖数据分类属性不一致性（Liu 等，2018；张敬怡，2023）。时序地表覆盖数据不一致探测是要找到这些不合理从而进行产品修正、评价等以提高产品精度和应用范围（简灿良，2013；孙群等，2022）。提供高品质的时空信息，利于高水平的时空赋能（陈军等，2023）。当前存在的许多地表覆盖产品精度普遍较低，一致性和连续性也不尽如人意（Giri 等，2005）。为保证数据质量，土地覆盖数据核对主要靠专家经验判读，费时费力，迫切需要自动快速的方法（Kang 等，2019）。

目前，地表覆盖数据不一致性探测方法主要有四类。一是结合类方法。基于拓扑关系可信度的更新期错分目标初判与多重约束后验判断结合的地表覆盖不一致性探测体系，以GlobeLand30 中耕地为例得到探测总体有效性达88.2%（康顺，2019）；从变化图斑中结合局部光谱特征证据、预期类别变化证据及D-S 证据设计证据决策分类规则提升产品一致性（卫玄烨，2020）；耦合生态地理分区专家知识和马尔可夫链来提高地表覆盖分类产品精度，使GlobeLand30 数据精度提高10%以上（剌怡璇，2020）。此类方法主要以前一期数据为参考提升更新期或单期数据的一致性和精度，而没有使用时间序列变化规则来提高时序数据的地类时序变化一致性。二是基于统计学的方法。根据数据集的分布特性选择拟合的概率模型，然后根据模型的不一致性确定异常（Domański，2020）；指出可基于扫描统计的算法，用于时序数据的异常探测（邓敏等，2016）；针对分类误差和偏移，提出引入土地覆盖转移概率矩阵和空间因子的隐马尔可夫模型，提高实验区产品总体精度（2%~4%）和时空一致性（张敬怡，2023）。此类方法主要用统计原理发现异常，或使用转移概率矩阵来计算分类概率，缺少逻辑规则的定性判定。三是逻辑规则法。基于生态地理知识库的方法识别不一致错分（陈旭，2017）；根据研究区的生态规律，引入土地覆盖类型逻辑编码，用改进的分层制图策略使研究区的地表覆盖不合逻辑的像素数量减少13%~35%（Yang 等，2016）；针对GlobeLand30 三期数据之间及GlobeLand30 数据与其他数据间的不一致性，对不同类型的不一致现象分别建立推理规则集进行修正，使各期数据间类别不同像素比例下降4%左右（孟庆臻，2023）。此类知识规则能较好地发现与已知规则矛盾的数据，但不能判定未知的小概率错误变化。四是特征指数法。基于形状指数的地表覆盖空间匹配不一致错分图斑过滤方法，在实验区准确性达到98.2%（周治武和巩垠熙，2021）；针对地表受季节影响易变化区域，在融合的多时相遥感影像上选择样本提取特征进行随机森林分类来降低数据的伪变化（孟庆臻，2023）；利用光谱特征构建多时相光谱库，对遥感影像进行地表覆盖自动随机森林分类（王颖洁和郭诗韵，2022）；运用卷积神经网络提取影像特征，提高遥感影像的地表覆盖分类精度（朱宏等，2020）。此类方法根据地物特征确定地物类型能较准确地分类，但没有考虑地物的变化规律和特征混淆问题。

综上所述，目前的地表覆盖数据不一致性研究多是针对单期或者更新期在空间方面的不一致性探测，在具有多期的时序地表覆盖数据中进行时间连续性不一致探测的研究较少，因此，本文提出一种基于时序数据属性变化关系的改进拉依达准则与地类时序转换逻辑规则相结合的改进拉依达逻辑规则结合法（improved Pauta criterion logic rule combination method，IPCLRC），用于时序地表覆盖数据不一致性探测。逻辑规则可以过滤出与常识矛盾的不一致目标，改进拉依达准则可筛选出地表覆盖数据中可信度低的变化。

2 研究技术路线

在生产过程中，因原始影像、分类方法、分类人员等方面的差异，同一地区在不同时期地表覆盖数据产品上存在属性分类不合理的情况。如图 1 中浅蓝色线为轮廓的图斑在三期数据中是水体变耕地再变回水体，而对照遥感影像可发现该图斑并无变化，类似的情况在时序地表覆盖数据中普遍存在，这严重影响数据的质量与使用，本文目的是找到这些地类属性时序变化与现实情况不一致的错分数据。

图1 时序地表覆盖数据不一致错分示例Fig.1 Examples of inconsistent classification of temporal surface cover data

本文提出的IPCLRC，是为了探测到时序地表覆盖数据属性变化存在的逻辑不一致和由各种不明原因导致的随机性错分。为验证可行性和合理性，以典型城市为研究区进行实验，技术路线如图 2 所示，主要包括四部分：①利用时序地表覆盖数据统计各地类属性时序变化频数的特征，抽样计算易推理的地物变化规律类型的错分率；②根据拉依达准则和改进拉依达准则的置信区间提取约束规则，根据错分率确定逻辑规则；③将改进拉依达准则提取的规则与提取的逻辑规则结合，形成IPCLRC 约束规则；④将IPCLRC 和其各相关组分的规则用于探测与分析。

图2 不一致探测技术路线Fig.2 Inconsistent detection of technical route

3 研究方法

3.1 逻辑规则

全球生态地理分区由于其全球性、分区地类稳定性、地物变化规律性和信息量大等特点，可以用来构建知识库辅助变化检测（陈旭，2017）。逻辑规则法是根据时序属性变化的特点，找出常见和罕见的地类变化类型作为规则进行不一致性探测，常见的为允许类型，罕见的为限制类型。时序地表覆盖中，逻辑罕见的连续变化有A—B—A 型（某地块属性由A 变为B 后变回A）、A—B—C 型（某地块属性由A 变为B 后变为C）。另外，推理筛选易理解的地物变化规律，再通过抽样验证，并用判定为错分的面积除以验证总面积作为错分率。从中发现非连续变化的水体变耕地、人造变水体、林地变耕地错分率高，因此纳入限制类型；耕地变人造、耕地变草地、林地变人造错分率低，纳入允许类型。本研究选用的逻辑规则定义，如表 1 所示。

表 1 逻辑规则表Tab.1 Logic rules table

3.2 改进拉依达准则

时序地表覆盖变化复杂多样，难以判断哪种时序属性关系是合法关系或非法关系。本文基于Gadish（2001）提出的置信区间统计法构建不一致性判断规则，该方法可探测到逻辑常识之外未知的不一致性。通过时序地表覆盖数据集的属性变化关系发生频数，设置置信区间获取地表覆盖目标时序属性关系规则；计算每一种初始属性下时序属性变化关系发生频数，形成升序图（图 3）。通过关系发生频数的加权均值、标准差，依据拉依达准则kσ构建置信区间，本文k根据最大频数占比所对应的正态分布概率表决定，σ为标准偏差。由某一属性变化关系发生频数与置信区间的集合代数判断，构建基于属性变化关系约束的不一致性判断规则。拉依达准则是依据正态分布设立，以加权均值avg 为中心构建置信区间，而属性变化关系发生频数分布更像是正态分布的一半或对折，因此本文提出改进拉依达准则：以属性变化关系发生频数的最大值max 代替加权均值，在原来左右两个方向上的延伸变为左边方向上2 倍的kσ延伸。拉依达准则置信区间：

改进后变为

图3 湿地时序属性变化频数升序图Fig.3 Ascending order diagram of the wetland temporal attribute change frequency

3.3 IPCLRC

IPCLRC 结合逻辑规则和改进拉依达准则，是以逻辑规则为强规则，改进拉依达准则构建置信区间提取的规则为弱规则，当两种规则发生冲突时，保留强规则，删除弱规则。首先，如表 2 中在基于改进拉依达准则置信区间外的弱限制规则A、B 和C 上，添加强逻辑限制规则B 和D，得到限制规则A、B、C 和D；其次，去掉强逻辑允许规则A，得到IPCLRC 限制规则B、C 和D；最后，用IPCLRC规则进行探测。

表 2 结合法原理Tab.2 Principle of the binding method

4 实验与分析

4.1 研究区域与数据源

合肥市是2000~2020 年我国GDP 增速最快的地级市（孙斌栋和郑涛，2023）。雄安新区为国家级新区，随着城市的扩张与发展，地表覆盖变化剧烈，适合用于时序地表覆盖数据不一致性验证研究。研究数据为国家基础地理信息中心研制的GlobeLand30 数据，该数据从2000 年开始，每隔10 年更新一期，因此，以2000 年的合肥市行政区划为准，雄安新区以最早划分的行政区划为准。

所有数据在ArcMap 中以2010 年GlobeLand30数据为基准进行几何校正、裁剪、镶嵌。Landsat7 ETM SLC-on 产品在同年份中选择时间错开的多景进行真彩色合成，尽量消除季节和云层对地类判断的影响。为了使地表覆盖数据便于操作与统计时空属性关系，基于像元将所有期GlobeLand30 数据的类别信息融合到一张地图中得到时序地表覆盖栅格图：将原始GlobeLand30 数据中的10，20，…，90，100 重分类为1，2，…，9，0（1 耕地，2 林地，3 草地，4 灌木，5 湿地，6 水体，7 冻原，8人造覆盖，9 裸地，0 永久冰雪），用栅格计算将单期代表类别信息的字段A（0，1，2，…）相加形成复合多期属性的新字段ABC（如123，按位序代表对应期的属性）。将时序地表覆盖栅格图转换成面数据，便于在ArcMap 中筛选定位、抽样验证和统计。

4.2 验证方法与评价指标

1）验证方法

验证方法以参照谷歌高清历史影像为主，谷歌地图可以较清晰地展现地表覆盖情况（Tsai 等，2018）。以相同年份Landsat7 ETM SLC-on 真彩色合成影像和30 m 分辨率数字高程模型数据为辅的方式，在ArcMap 中对时序地表覆盖数据图斑进行目视判读。将属性信息与各时期的遥感影像进行比对：当验证图斑存在某一时期错误的面积超过该图斑面积的一半时，判定为错误；否则为正确。

2）探测准确率计算

由于数据量大难以全部进行目视判断，因此，本文在探测到的每一种的地类时序变化中，采用随机抽样的方式抽取10 个以上图斑进行验证，不足的以实际数量为准。准确率表示所有的预测样本中，预测正确的比例，单个地类时序变化探测准确率为dpi，某种方法的探测准确率用P表示：

式中，S1为抽样验证结果是正确的图斑面积，m2；S为抽样验证的图斑面积，m2；ni为单个地类时序变化种类的栅格总数量；a为某种方法探测正确的栅格总数；A为某种方法探测的栅格总数。

3）探测率计算

探测率是探测到的不一致目标面积与所有不一致目标面积的比值，用来反应探测方法的探测能力，用Q表示：

式中，N为研究区地表覆盖数据的栅格总数；F为研究区的错分率；S2为单个样本错分面积，m2；S3为样本总面积，m2。

4）精度提升率计算

精度提升率是探测方法探测到的不一致目标面积与探测范围总面积的比值，用Ac 表示：

4.3 结果与分析

4.3.1 改进拉依达准则

为分析改进拉依达准则对地表覆盖属性数据拟合的合理性，分别用改进前、后的准则计算研究区地表覆盖初始属性下变化的置信区间，对比两者差距。由表 3 可知，改进后的置信区间更合理，且包括的时序属性变化种类更多，解决了原始置信区间覆盖不到最大频数的问题。

表 3 初始属性的变化集置信区间Tab.3 Change-set confidence intervals for the initial attributes

4.3.2 准确率分析

在研究区分别用拉依达准则、改进拉依达准则、逻辑规则、IPCLRC 和两种逻辑规则中的连续性规则进行探测，进行目视验证后计算得到准确率。验证情况如表 4 所示，其中，没有验证到的类型是因为其图斑面积太小达不到验证的最小面积。

表 4 探测验证情况表Tab.4 Table of the probe validation

探测到的各变化类型统计，如图 4 所示。IPCLRC 探测到的大部分变化类型准确率较高，其中，水体与耕地、耕地与林地占比较大。由探测结果（表 5）中准确率P可知，基于改进拉依达准则的探测准确率比改进前的有所提高；逻辑规则中的连续变化规则A—B—A 和A—B—C 型探测准确率高达99%，逻辑规则总体准确率最高，达到95%左右；IPCLRC 的准确率超过90%。

表 5 探测结果Tab.5 Detection results

图4 IPCLRC 探测到的不一致性变化类型统计Fig.4 Statistics of inconsistent changes types detected by the IPCLRC

4.3.3 探测率分析

探测率反应探测正确的结果在研究区所需探测目标的占比情况。为计算探测率，首先，在研究区用五点法均匀布设采样点，目视验证样本后抽样计算研究区的错分率，错分率计算采样点如图 5 所示。然后，计算拉依达准则、改进拉依达准则、逻辑规则、IPCLRC 四种规则和两种逻辑规则中连续性规则的探测率，如表5 所示。

由表 5 中探测率Q可知，在雄安新区拉依达准则和改进拉依达准则的探测率接近且较低，逻辑规则的较高，IPCLRC 的最高；在合肥市拉依达准则的探测率最高，IPCLRC 的和改进拉依达准则的次之，逻辑规则的最低。在雄安新区拉依达准则和改进拉依达准则的探测率接近，是因为其地类变化种类较合肥市少，且改进前、后置信区间覆盖的地类变化也相似。在雄安新区拉依达类准则比逻辑规则的探测率低而在合肥市相反，是因为雄安新区主要变化类型中耕地与人造交界处易错分的耕地变人造，和季节性洪旱导致易错分的水体变耕地两者频数高，在拉依达类准则的置信区间内，这说明拉依达类准则易受主要时序地表覆盖变化的类型和数量的影响。改进拉依达准则追求了更高的准确率而舍弃了部分准确率较低的时序变化类型，从而比改进前的探测率略低。综合来说，IPCLRC 在两地均有较高的探测率。四种规则探测结果举例对比，如表 6 所示。

表 6 探测结果对比Tab.6 Comparison of detection results

图5 错分率计算采样Fig.5 Sampling plots for misclassification

4.3.4 精度提升分析

将现有探测结果用于地表覆盖数据的修正和改进，在已有抽样验证的基础上计算对地表覆盖数据精度的提升率，如表 5 中Ac 所示，对IPCLRC探测后的结果进行修正，可使雄安新区和合肥市的地表覆盖数据精度分别提高2.8%、4.55%。IPCLRC的提升率差距主要体现在改进拉依达准则部分，雄安新区为1.79%，较合肥市的4.35%低。这主要是因为雄安新区的地表覆盖类型较少，且主要为易因季节性洪涝而错分为水体的耕地。

5 结论

本文针对时序属性关系，以GlobeLand30 时序数据集为例，选取雄安新区和合肥市为研究区，用IPCLRC 和相关规则（拉依达准则、改进拉依达准则、逻辑规则）进行了时序地表覆盖数据不一致探测，并利用谷歌高清影像等参考数据对探测结果进行了随机抽样验证。结果表明：①改进拉依达准则用于时序地表覆盖属性不一致探测，改进后置信区间更合理，准确率更高；②实验证明逻辑规则准确率最高，其中，连续变化的A—B—C、A—B—A型两种规则的准确率接近100%；③提出的IPCLRC兼顾逻辑的确定性和随机误差的未知性，具有较高准确率和探测率；④对IPCLRC 探测到的结果进行修正，可使雄安新区和合肥市的地表覆盖数据精度分别提高2.8%、4.55%。本研究对自动快速提升时序地表覆盖数据质量领域具有一定的参考价值。

针对更长时间序列和其他版本的时序地表覆盖数据可推广使用IPCLRC，在推广时需要重新确定适合的置信度和适合当地生态规律的逻辑规则。随着时序的增长，本方法的探测效果可能会逐渐变差，该问题可通过将长序列拆分的方式解决。另外，在今后还可以尝试将本方法与其他方法（拓扑不一致探测、多源地表覆盖数据互验证等）组合来研究如何提高数据的一致性和精度。