基于多光谱数据和融合像素差卷积的壁画线稿提取

2024-03-05 08:15张换换王慧琴王可王展甄刚贺章
液晶与显示 2024年2期
关键词:壁画尺度边缘

张换换, 王慧琴*, 王可, 王展, 甄刚, 贺章

(1.西安建筑科技大学 信息与控制工程学院, 陕西 西安 710055;2.陕西省文物保护研究院, 陕西 西安 710075;3.陕西省考古研究院, 陕西 西安 710054)

1 引言

壁画作为我国最古老的绘画艺术形式之一,存世数量巨大、色彩瑰丽、内容丰富,具有极高的艺术和研究价值,是中国文化遗产的重要组成部分。这些珍贵的壁画在数千年时间里受到了人类和自然的严重破坏,需要得到及时的保护和修复。壁画的线稿决定了其主要结构以及内容,是保护和修复的关键环节。

传统的壁画线稿提取方法多为手工绘制,效率较低,只能绘制肉眼所看到的壁画信息,无法获取可见光之外的隐藏信息。光谱成像技术可以得到更为宽广光谱范围的图像,从而获得更加丰富的信息[1]。现阶段基于光谱数据提取线稿的方法大都将光谱反射率相近的像素聚类从而分出属于线稿颜色的边缘,最常用的有光谱角分类[2]和支持向量机分类[3]。这类方法需要选择纯净像元作为参考与光谱库光谱曲线进行对比,对人工干预的依赖度较高。针对壁画数字化保护问题,需要探索研究一种更加高效且准确的数字化壁画线稿自动提取技术。

壁画图像线稿的提取可以作为图像边缘检测问题进行处理。目前基于边缘检测的线稿提取主要分为传统边缘检测方法和基于深度学习的方法。传统的边缘检测基于图像梯度,通过方向导数掩码(梯度方向导数)求卷积得到图像的边缘,如Sobel算子[4]、Prewitt算子[5]和目前最常用的Canny算子[6]。由于只基于梯度计算,易受噪声影响,其浅层结构不太明显,会丢失梯度不明显的线条,导致提取出的边缘不连贯。Kang等人[7]提出了一种基于流的高斯差分(Flow-based Difference of Gaussians, FDoG)滤波框架构建边缘正切流,提高了线条的连续性和平滑程度,但是容易受噪声影响。由于大多数古代壁画经过人为和自然等因素的破坏,导致壁画图像存在大量的噪声。使用现有的边缘检测算法大多对壁画的线条进行视觉上的增强,如果忽略图像本身的噪声,很难从壁画中提取出线稿草图。

近年来,深度学习在边缘提取方面逐渐显示出优势,可以从原始像素点到抽象的语义概念逐层提取信息,目前基于学习的边缘检测方法如RCF[8]、BDCN[9]、DexiNed[10]等都有出色的边缘提取性能。Su等人[11]提出了一种用于高效轮廓检测的像素差网络(PiDiNet),将经典的轮廓检测算子引入深度神经网络,边缘检测的效果较好。但将深度学习技术应用于壁画线稿提取也面临着巨大的挑战,目前边缘检测模型的训练和评估都是基于公开的自然图像数据集进行,没有可以用于进行壁画边缘检测的公开数据集。

壁画本身的病害及残损情况使壁画线稿的提取难度加大。本文提出了一种基于像素卷积平衡的壁画多光谱图像线稿提取方法,对壁画多光谱数据进行最小分离噪声变换选取最优波段,根据壁画线稿的梯度方向分布,采用像素差卷积提取感兴趣区域的边缘特征。在侧输出层引入尺度增强模块(Scale Enhancement Module,SEM)利用膨胀卷积生成多尺度特征。设计损失函数解决CNN提取出的线稿边缘模糊以及存在大量阴影的问题,获取线稿清晰边界。使用训练后的模型可以提取出较为完整且清晰的壁画线稿。

2 相关原理及方法

2.1 最优主成分波段选择

由于多光谱壁画数据量大,波段数目多且波段之间相关性高,存在数据冗余的问题,因此将最小噪声分离变换(MNF)应用到提取壁画特征信息中,去除噪声以及对数据进行降维。MNF本质上是两次主成分变换。第一次变换用于分离和重新调节壁画数据中的噪声,并去除各个波段之间的相关性;第二次变换通过各波段的特征值判断壁画数据内在维数。通过两次变换将壁画数据中有效信息与噪声分离,并按照信噪比形成新的波段排列。在MNF变换后输出的波段中,壁画数据的主要信息都集中在特征值大的波段,后面特征值小的波段主要以噪声为主,因此选择特征值大且图像清晰的波段作为最优主成分波段进行线稿提取。

2.2 网络总体模型

线稿提取的网络结构如图1所示,整体框架由主干网络和侧输出层组成。主干网络分为4个阶段进行壁画图片特征提取,每个阶段由像素差卷积块(PDC)和最大池化层组成,直接将梯度信息提取的过程集成到卷积运算中,捕获有利于边缘检测的图像梯度信息,从丰富的壁画数据中提取感兴趣的特征图学习。侧输出层是在每组卷积层结束时连接一个尺度增强模块(SEM),使用膨胀卷积增加网络神经元的感受野,更好地捕捉输入特征图的局部信息,进一步丰富多尺度特征。然后经过1×1卷积层进一步将特征体积缩减为单个通道映射,将其插值到原始大小,再使用Sigmoid函数创建边缘映射,最终预测的边缘图融合了4个阶段的单通道特征图与拼接层、卷积层和Sigmoid函数创建。该网络的输入和输出分别是壁画最优主成分波段图像和相应的线稿。

图1 本文算法网络结构图Fig.1 Architecture of the proposed network

2.3 基于梯度知识的像素差卷积

在深度学习中,使用卷积运算提取特征来降低图像的维数,将卷积核的权值与对应区域的图像矩阵中的像素值进行点乘累加,即:

式中:xi是输入像素,wi是k×k卷积核中的权重。卷积运算的本质是提取图像的强度信息[12-13],在运算过程中根据损失函数的梯度下降来更新卷积核的权值,从图像中获得部分梯度信息,但是梯度信息所占的比例太小,无法提取到较完整的边缘结果。传统的图像滤波算子在对图像域进行运算时,由于算子是固定的,相当于对图像域内的像素值进行差分运算,因此可以很好地提取图像的重要梯度信息。所以,卷积方法定义为差分卷积,在卷积运算中,将卷积核覆盖的图像域中的像素替换为像素差,如式(2)所示:

式中:xi和x'i是当前局部patch中的像素,wi是k×k卷积核中的权重。是从图像中选取的像素对集合,m≤k×k。

壁画轮廓的梯度在各个方向上分布,所以像素差卷积(Pixel Difference Convolution ,PDC)的差速方向为各个方向。为了获取丰富的壁画梯度信息,每个像素差卷积块采用3个残差块构成,从而避免退化以及通道数的增加。残差块内部使用可分离的深度卷积结构[14-15]进行轻量化,每个深度可分离卷积依次采用中心PDC(CPDC)、角PDC(APDC)和径向PDC(RPDC)这3种方向上的差分卷积。如图2所示,APDC是对邻域特征进行顺时针方向的两两差分;CPDC是对邻域特征进行中心差分;RPDC是对更大感受野邻域的外环和内环进行差分。差分卷积在保留了壁画图像强度信息的同时获得了更明显的梯度信息,使提取到的壁画纹理信息更加明显。

图2 3种不同策略的差分卷积实例Fig.2 Instance of differential convolution with three different strategies

差分卷积提取线稿特征图的过程由图1(b)所示,首先将差分运算生成的梯度矩阵M与大小相同的权核w进行卷积,从丰富的壁画数据中提取感兴趣的特征图学习。

然后对yPDC1的结果进行ReLU激活函数和1×1卷积运算,对线性单元进行校正。

式中,wij和bij是常规卷积运算在第i~j层的权重和偏差。

最后,采用剩余学习策略创建快捷连接,实现快速推理和易于训练。

式中:X表示整个输入图像,yPDC2是X经过像素差卷积后的残差结果,yPDC表示RPDC层的最终输出。

2.4 尺度增强模块

不同的卷积层描述不同的尺度。为了在网络中实现不同尺度的边缘检测,使用尺度增强模块(Scale Enhancement Module,SEM)增强每个卷积层中学习的多尺度表示。在每组PDC层结束时的侧输出层插入尺度增强模块,其网络架构如图1(c)所示。该模块由多个并行的不同膨胀率的卷积组成。使用膨胀卷积在不降低特征图分辨率或增加参数的情况下,扩大了神经元的感受野,通过融合具有不同膨胀率的空洞卷积层的结果来丰富图像的多尺度特征。尺度增强模块不同于特征金字塔提取多尺度特征,避免了更深层次的网络以及重复的特征融合。

在SEM模块中,给定一个卷积滤波器w∈Rh×w的二维输入特征图为x∈RH×W,在(i,j)上特征图的膨胀卷积输出y∈RH'×W'可以表示为:

其中,r为膨胀率,表示输出特征图的步长。对于每个SEM,应用K个不同扩张速率的扩张卷积。对于第k个膨胀卷积,将其膨胀率设为rk=max(1,r0×k) 。

2.5 基于图像相似度的损失函数

线稿图像的生成是一个像素级分类任务(图像中所有的像素分类为边缘像素和非边缘像素)。目前解决二元分类问题常用到交叉熵损失。由于图像的边缘和非边缘像素在数量方面非常不平衡,因此直接使用交叉熵损失函数将无法训练网络。现阶段较好的基于深度学习的边缘检测方法中基本都采用加权交叉熵损失策略[16],即在边缘和非边缘像素上设置权重来平衡交叉熵损失,在加权交叉熵中加入了阈值η。若某个像素为边缘像素的概率小于阈值η,则认为这个像素为非边缘像素,否则为边缘像素:

但是加权交叉熵通常会不可避免地将边缘附近的像素错误分类,忽略了像素级别不平衡的问题,导致提取出来的线稿不理想,出现假边(假阳性像素)、缺少真边(假阴性像素)以及在纹理区域中形成暗阴影。受Dice系数[17]可以解决类别不平衡[18]问题的启发,在线稿提取模型中引入Dice系数。Dice系数(公式(9))是两个集合之间重叠的度量,范围在0~1之间。如果两个集合P和G完全重叠,则DSC将其最大值设置为1;如果两个集合根本不重叠,则将其最小值变为0。

因此,使用1-Dice系数作为Dice损失(公式(10))以最大化两组之间的重叠,其中pi和gi分别表示预测和标签的相应像素值。在线稿提取的场景中,标签边缘像素和预测边缘像素可以视为两组。通过Dice损失,两组像素值被训练得逐渐重叠,其中分母为全局尺度的边缘像素总数,分子为局部尺度上两个集合之间的重叠。

本文提出一种基于图像相似度的损失函数组合的策略,将Dice损失和加权交叉熵损失相结合。加权交叉熵损失是每个对应的像素对之间预测与标签的距离之和,集中于像素级间的差异。Dice损失可以被认为是图像级的,关注两组图像像素的相似性,使两组像素值在训练数据上的距离最小化。因此,组合损失能够逐级地最小化从图像级到像素级的距离,获得较为清晰的图像边缘。最终的损失函数定义为交叉熵损失函数和Dice损失函数的组合:

3 实验结果与分析

3.1 数据集

本文使用公开数据集BIPED和标定的壁画数据集测试所提模型的可用性和有效性。其中,BIPED数据集包含250对自然图像和边缘标签,标定的壁画数据集包含50对不同场景的高清彩绘壁画。为了避免模型训练过程中出现过拟合现象,通过裁剪、旋转、平移、缩放等策略增加两组数据集中的数据量。

训练阶段分为两部分,首先使用BIPED数据集对模型进行预训练,然后利用标定的壁画数据集对模型进行微调。这样不仅可以利用自然图像中形状、纹理等低级特征,也解决了壁画数据集稀缺的问题。另外,采集到5组天津独乐寺壁画不同场景的光谱图像来进行模型的评价。

3.2 实验设置

本文所有实验均在NVIDIA GTX 3090 GPU上进行。采用Pytorch实现网络模型的训练,训练阶段输入的图像尺寸为512 pixel×512 pixel。选择Adam优化器,具体参数如下:初始学习率为0.005,以多步方式衰减(在epoch8和12,衰减率为0.1)。在预训练阶段,模型经过30次迭代收敛;在微调阶段,模型经过20次迭代收敛。

3.3 实验结果分析

将提出的壁画线稿提取模型与目前较好的边缘检测方法FDoG[7]、RCF[8]、DexiNed[10]、PiDiNet[11]进行对比,同时采用结构相似指数(SSIM)、均方根误差(RMSE)、峰值信噪比(PSNR)对不同方法提取的线稿进行评价。此外,对基于光谱信息提取线稿的方法SVM[2]、SAM[3]和CNN也进行了实验对比。

3.3.1 评估指标

针对壁画线稿的提取结果,结合图像质量评价指标:均方根误差(RMSE)[19]、结构相似性[19](SSIM)和峰值信噪比(PSNR)[19]进行评价。

(1)结构相似性

SSIM是一种符合人眼视觉特性的图像客观评价指标,主要从亮度、对比度和结构3方面衡量两幅图像的相似度,如式(12)所示:

其中:x表示标定图像,y表示预测的线稿图像,σx和σy为对应图像的方差,σxy为协方差。SSIM取值范围为[0,1],其值越大表示线稿提取的效果越好。

(2)均方根误差

RMSE是衡量预测的线稿图像Yi与标定的线稿f(xi)之间的偏差,通常情况下较低的均方根误差优于较高的均方根误差,如式(13)所示:

(3)峰值信噪比

PSNR用来衡量处理后图像噪声情况与失真程度的客观准则。其值越大,表示预测的线稿相对于原图像噪声越小、质量越高。具体表达式如式(14)所示:

式中,n为决定图像灰度级的像素比特数,其值一般取8,即灰度级为256。MSE的表达式如式(15)所示:

式中:H、W分别代表图像的高和宽,x(i,j)代表图像像素点所在位置的坐标。

3.3.2 与现有的图像边缘检测方法对比

本文所提方法与上述几种算法的壁画线稿提取结果如图3所示。FDoG算法无法有效抑制噪声的干扰,如图3(b)所示,提取的线稿中存在大量的噪点且线条连续性较差;基于深度学习的RCF对噪声抑制力较强,提取的线稿连续但边缘模糊,同时壁画中细小的特征则完全丢失,如图3(c)所示;DexiNed提取的线稿相对完整,但对噪声抑制能力较差,如图3(d3)所示,在壁画背景有一定的损坏情况下,该方法在提取线稿的同时也提取出了壁画的损坏部位;PiDiNet提取出的线条连续性较好,对噪声的鲁棒性较好,但线条都有一定程度的缺失且提取的图案边缘存在大量的模糊,如图3(e)所示;而本文方法提取出来的线条具有较好的连续性且信息比较完整,同时获得了较为清晰的边缘,如图3(f)所示。实验结果证明,本文方法提取的线稿结果明显优于其他几种方法。

图3 壁画光谱图像线稿提取方法对比Fig.3 Comparison of sketch extraction methods for mural spectral images

为了验证模型的有效性,采用SSIM和RMSE指标来定量评价壁画线稿提取效果,结果如表1所示,其中粗体表示最佳结果。从指标上看,本文方法在SSIM和RMSE方面均优于文献[7-8]、[10-11]中的方法,SSIM和RMSE指标分别提高了2%~22%、2%~16%,与PiDiNet方法相比提高了2%~10%、2%~4%。实验表明,该模型提取出来的线稿结构完整性较好。从评价指标的结果来看,基于深度学习的方法优于某些传统方法,本文所提方法优于其他基于深度学习的线稿提取算法,在一定程度上证明了所提方法在提取壁画线稿上的可行性。

表1 与其他方法的定量比较Tab.1 Quantitative comparison with other methods

3.3.3 关于改进有效性的讨论

本文通过实验来验证线稿提取模型各模块的有效性。本文主要提出采用像素差卷积(PDC)、尺度增强模块(SEM)以及组合损失函数获取清晰完整的线稿图像。为了验证各模块的有效性,在壁画数据集上对模型进行了消融实验,采用数据集的最佳数据集尺度(ODS)和最佳图像尺度(OIS)作为模型的指标。定量结果见表2,可视化结果见图4。在消融实验中,PDC层被标准卷积层取代,组合损失函数被加权交叉熵函数代替。

表2 本文方法在不同模块下的ODS和OIS比较Tab.2 Comparison of ODS and OIS for the methods in this paper under different modules

图4 消融实验的可视化结果Fig.4 Visualization results of the ablation experiment

从表2可以看出,在原始模型中加入PDC、SEM模块以及组合损失函数,模型的ODS和OIS分别提高了0.027和0.02。图4(a)是去除PDC层后提取出的壁画线稿,其ODS和OIS分别下降了0.012和0.014,线条连续清晰但大量细节丢失,壁画上的山体以及浪花花纹并未完整提取出来。实验证明PDC层与普通卷积层相比,可以更好地捕捉图像中的梯度信息,有利于边缘检测。图4(b)是去除SEM模块后提取出的壁画线稿,线条清晰但是丢失小部分细节,其ODS和OIS分别下降了0.011和0.01。图4(c)是未使用组合损失函数策略提取出的壁画线稿,线稿基本完整,其ODS和OIS分别下降了0.002和0.007,验证了PDC层和SEM模块的有效性,但提取出的线条仍存在线条不清晰及纹理区域形成阴影的情况,证明提出的损失函数策略可以生成清晰的线条。

3.3.4 与基于光谱信息提取线稿的方法对比

以上对比方法仅使用壁画多光谱数据的最优主成分波段,多光谱图像系统采集的反射率光谱未得到充分利用。目前最常用的基于光谱信息提取线稿的方法是将光谱反射率相近的像素聚类,将整个壁画分成代表不同光谱反射率的区域,以线稿颜料为主的像素会聚集在一起从而提取出线稿区域。为了验证本文所提线稿提取方法的效果,与目前常见的3种方法:基于光谱角分类[2]、基于向量机分类[3]和基于CNN的线稿颜料分类进行对比,对比结果如图5所示。采用峰值信噪比法(PSNR)和结构相似性(SSIM)对结果进行分析,定量结果如表3所示。

表3 基于光谱信息提取线稿的定量结果对比Tab.3 Comparison of ODS and OIS for the methods in this paper under different modules

表4 在BIPED数据集中不同算法的定量结果对比Tab.4 Comparison of quantitative results of different algorithms in the BIPED dataset

图5 壁画线稿提取对比实验Fig.5 Comparison experiment of Mural sketch extraction

图5(b)是采用光谱角分类提取的壁画线稿,可看出属于线稿的黑色颜料部分被提取出,并且衣裙上颜料也被误当成线稿颜料,导致提取出的线稿信息不完整。这主要是这类方法需要选择纯净像元,像素值的光谱曲线越接近线稿光谱曲线的值,该像素点越会被分为线稿。由于线稿上的纯净像元较少同时部分颜料色彩相近,没有办法完全将线条剥离出来从而导致线稿的错误提取。图5(c)使用SVM来提取壁画线稿,提取出的线稿噪声较小,但包含了较多不属于线稿本身的错误信息。图5(d)采用CNN方法对线稿颜料进行分类,提取出的线稿相比于SAM较为完整但是也没有将线稿完全剥离出来。由表3定量结果可见,本文方法的PSNR和SSIM均优于其他3种方法,这也在一定程度上表明,依靠像素聚类分离的方法虽然充分利用了光谱信息,但是由于壁画表面成分复杂且颜料变质等原因,难以得到纯净的端元,分离出真正的线稿成分。

3.4 BIPED数据集测试

为了验证所提模型的性能,本文在BIPED公开数据集上进行模型训练与验证。

本文所提模型与其他算法相比的定量结果如表2所示。可以看出,本模型的ODS值为0.839,相较PiDiNet提高0.005;OIS值为0.857,较PiDiNet提高0.007。与PiDiNet输出的边缘图像对比结果如图6所示。可以看出,PiDiNet提取出的边缘图像部分线条模糊。本文所提方法提取出的边缘清晰且部分细节突出,较好地解决了边缘阴影模糊的问题。

图6 PiDiNet与所提方法结果对比Fig.6 Comparison of the results of PiDiNet and the proposed method

4 结论

本文研究了现有针对光谱壁画数据进行线稿提取的方法,分析了壁画线稿提取的难点,并提出一种基于多光谱成像与深度学习结合的壁画线稿提取方法。为了提取清晰的壁画线稿以及感兴趣边缘特征,将像素差卷积引入模型中,加入SEM模块丰富多尺度特征,同时在损失函数中引入Dice系数解决非边缘像素点的错误分类问题从而提取出清晰的线稿。与对比实验方法相比,本文所提方法针对有损坏的多光谱成像壁画提取出的线稿图像SSIM和RMSE分别提高2%~10%、2%~4%,可以提取出较为完整且清晰的线稿图像。在BIPED数据集中对模型进行了验证,其ODS和OIS较PiDiNet分别提高0.005和0.007。

猜你喜欢
壁画尺度边缘
敦煌壁画中的消暑妙招
财产的五大尺度和五重应对
壁画上的数学
北朝、隋唐壁画
一张图看懂边缘计算
帮壁画“治病”
宇宙的尺度
9
室外雕塑的尺度
在边缘寻找自我