基于门控卷积生成对抗网络的西汉漆箱纹饰图案数字化修复研究

2024-01-03 12:06冯金牛朱建锋罗宏杰
陕西科技大学学报 2024年1期
关键词:纹饰图案卷积

周 强, 王 露, 冯金牛, 王 莹, 朱建锋, 罗宏杰,3

(1.陕西科技大学 电气与控制工程学院, 陕西 西安 710021; 2.陕西科技大学 硅酸盐质文化遗产研究院, 陕西 西安 710021; 3.上海大学 材料科学与工程学院, 上海 200444)

0 引言

中国漆器历史悠久,文化底蕴深厚,尤以两汉时期的漆器艺术价值最高,不仅造型优美,而且漆质莹洁光滑,并以其精美的纹饰艺术闻名于世[1,2].漆器已成为中国历史、文化、艺术的重要载体[3,4].目前我国发掘并成功修复的汉代漆器多见于南方[5],而北方地区由于地质原因导致漆器内部缺乏水分填充、外部缺少水浮力承托,致使漆器失衡坍塌[6].因此出土于北方的漆器破损程度严重、修复难度较大.

近年来随着数字化技术的发展以及其在文物修复领域的应用[7-9],本文研究团队尝试将数字图像技术应用于修复北方漆器中.这种古漆器的数字化修复过程包括箱体结构复原、纹饰图案修复、结构与图案融合复原等3部分[10],其中,由于漆皮破损严重、细腻的纹饰信息大面积缺失等原因使得纹饰图案修复成为难点问题.利用数字图像修复技术解决这类难点问题,目前分为传统方法和深度学习方法两类[11].传统方法主要包括基于扩散的图像修复[12,13]和基于样本的图像修复[14]方法,主要针对面积缺失较小的图像.例如,经典Criminisi算法[15]对传统小面积缺失图像的修复效果较好,但是无法对纹理进行推理,修复结果存在结构和纹理不一致、内容不合理的情况.相对于传统方法,深度学习方法修复缺失区域较大的图像效果显著[16].例如,Zeng等[17]提出的基于上下文编码(Context Encoder,CE)修复网络,通过对输入图像的上下文语义编码,达到修复较大缺失区域图像的目的.但是,此方法修复的图像边缘总是过于平滑或者较为模糊.为此,Nazeri等[18]提出一种名为EdgeConnect的二阶段对抗型模型,该模型通过两个生成器,其中一个边缘生成器生成一张边缘图,另一个生成器在此基础上填充信息,得到较为清晰的修复图像.但若图像的缺失面积大且纹理不规则,那么修复后的图像则较为模糊.针对现有方法在修复较大面积残损漆箱纹饰图案上的不足,本文提出了一种带有门控卷积结构的生成对抗网络方法,以提升模型对于图像中有效像素的学习能力,解决修复区域面积大(广、较分散)且形状不规则(非矩形状)的高分辨率修复问题.

本文以“西安凤栖原西汉张安世家族墓地”M1墓室中耳室出土的大型彩绘漆箱[19,20]为修复对象.该漆箱纹饰图案破损严重,有漆皮缺失、扭曲、破裂、甚至灰化等严重病害,数字化修复难度大.使用带有门控卷积的生成对抗网络修复方法,最终实现了漆箱表面图案中破裂、褶皱、污损区域的数字化虚拟修复,有力地支持了大型彩绘漆箱的整体复原工作.

1 整体思路与关键技术

1.1 漆箱纹饰的数字化修复方法整体框架

本文修复的汉代木胎彩绘漆箱,距今已有2000多年,破损严重且其体型庞大,其塌陷后的长度约为900 mm,宽度约为600 mm,厚度约为150 mm,出土现场图像见图1中左侧图片,漆箱胎体糟朽严重,丧失了原有的机械强度,箱体塌陷,表面漆皮虽然大部分完整,但局部相邻漆皮之间出现相互叠压、开裂情况,漆膜表面灰化严重,接触即溃.因此对漆箱定制数字化修复策略.如图1所示,整个修复工作分为漆箱箱体结构复原、表面纹饰图案修复和箱体结构与表面纹饰图案的融合复原3部分.其中表面纹饰图案因其修复难度较大(图1中红框部分),成为本文重点研究内容.

图1 漆箱的数字化修复过程框图

为了克服漆箱表面纹饰图案复杂、残损区域面积大且不规则的难题,本文提出使用带有门控卷积的生成对抗网络(Gated Convolution - Generative Adversarial Networks,GC-GAN),完成纹饰图案的修复,修复方法框架如图2所示.图案修复方法包括图像采集和预处理、构建和训练GC-GAN模型、纹饰图像修复3部分.

图2 汉代木质彩绘漆箱纹饰图案的数字化修复方法框图

图像采集和预处理环节是纹饰图案修复的准备工作,包括图像采集、图像分割、图像增强、畸变矫正和缺失区域掩膜图像获取一系列操作.其中,图像采集通过相机拍摄(实验室环境下的)出土彩绘漆箱箱体获得数字化图像;由于对整幅纹饰图像直接进行修复难度很大,因此,先按照其纹饰规律(周期性、对称性等)对图像进行分割,根据纹饰类型将整幅图案分割为若干独立的单元纹饰;同时为了得到较好的修复效果,修复前对单元纹饰图像进行了图像增强和畸变矫正等预处理;最后,对图像中残损区域进行掩膜处理.

GC-GAN模型的构建和训练环节是为纹饰图案修复准备生成模型.采用门控卷积结构对生成对抗网络进行改进,构建GC-GAN模型并使用公共数据库对其进行训练.

纹饰图案修复环节是整个修复的关键,将原始破损图像、掩膜图像输入至完成预训练的GC-GAN模型中,在掩膜区域生成新图案,最后将修复的图案和纹饰图案中无质量缺陷部分无缝拼接,从而完成整幅图案的数字化复原.

1.2 漆箱纹饰图案修复关键技术

漆箱纹饰图案的关键技术,是利用门控卷积结构对生成对抗网络中的生成器进行改进的GC-GAN模型,该模型可以显著提升对残损漆箱纹饰图案的修复能力.

1.2.1 生成对抗网络

生成对抗网络(Generative Adversarial Networks,GAN)主要由生成器G和判别器D组成,是一种非监督学习的网络框架,其核心思想是博弈与对抗,这也是该网络可以生成新信息的本质原因,图3是生成对抗网络模型的结构简图.

图3 生成对抗网络结构图

其中生成器的作用主要是将输入的随机噪声或样本图像利用已经学习到的概率分布重新生成图像,判别器则主要判别输入数据的真假,其输出为一个概率值.

生成对抗网络的目标优化函数可以用下列公式(1)表示:

(1)

式(1)中:V(D,G)表示函数值,E表示期望,x表示真实样本,Pdata(x)表示训练样本的真实分布,D(x)表示判别器判断是真实图像的概率,z表示输入生成器的噪声,Pz(z)表示生成模型的概率,G(z)表示生成器生成的图像.

训练网络使得判别器D可以最大概率的判别样本的真假,即D(x)最大、D(G(z))最小,同时使得生成器G生成的样本尽可能地逼真,即D(G(z))最大,也就是log(1-D(G(z)))最小.即找到纳什平衡点,使生成器和判别器各自的代价函数最小.

漆箱纹饰图像中含有面积较大的不规则残损区域,而常规的GAN修复方法对于不规则缺失图像的修复效果始终不理想,总有明显的像素连接痕迹.为此,本文提出了带有门控卷积的生成对抗网络模型(GC-GAN)修复方法,以解决不规则掩膜图像的修复问题.

1.2.2 带有门控卷积的生成对抗修复网络

图4是本文提出的GC-GAN整体结构图,该网络由粗生成器、细生成器和判别器组成.

图4 带有门控卷积的生成式对抗网络结构图

图4所示的GC-GAN本质是GAN的一种衍变体,也是由生成器和判别器两大部分组成,不同的是生成器被分为粗生成器和细生成器两部分.粗生成器以破损图像、掩膜图像作为输入,对缺失区域进行粗糙地重建修补.细生成器则以粗生成器粗填充的图像作为输入对其进行细化.

(1)粗生成器

如图4所示,粗生成器是由门控卷积层和改进的膨胀门卷积层组成的编码-解码结构,门控卷积是部分卷积的可学习版,其目的是解决图像修复结果模糊的问题.一般的卷积层认为输入像素是全部有效的,而对于图像修复任务,图像缺失区域的像素则是无效像素,因此使用常规的卷积层必然会导致修复结果模糊、颜色不一致等情况.部分卷积的核心思想使得卷积的结果只依赖于图像的有效像素而忽略图像中缺失部分的像素,有效提高了图像的修复质量,但是其掩码更新机制缺失灵活性,无论前一层的过滤范围覆盖了多少像素都将所有空间位置分类为有效或无效.

基于此提出了可以自动学习最优掩码的门控卷积.门控卷积的输入是破损图像及其掩膜图像,通过多层门控卷积之后得到输出.门控卷积从数据中自动学习更新规则的数学表达式如下:

Gatingy,x=∑∑Wg·I

(2)

Featurey,x=∑∑Wf·I

(3)

Oy,x=φ(Featurey,x)⊙σ(Gatingy,x)

(4)

式(2)、(3)中:I是特征图,Wg和Wf分别是两种不同的卷积滤波器;式(4)中:σ是sigmoid函数,φ可以是任何激活函数(ReLU、ELU和LeakyReLU),Oy,x是两种卷积滤波器分别对I做两次卷积.

对公式(2)进行卷积后,使用sigmoid激活函数对漆箱纹饰背景以及纹饰掩码图进行动态特征选择,其他激活函数对公式(3)卷积后的输出实现图像特征提取,最后对这两部分的输出进行点乘,实现更有效地选择和提取图像中的有用信息.相较于部分卷积使用0和1作为权重进行学习,门控卷积使用0和1之间的数字进行加权,因此更加灵活和可学习,能突出不同通道的边缘信息,从而提高修复效果,解决接痕明显的问题.

(2)细生成器

为了克服生成出的漆箱纹饰图像模糊问题,在细生成器中加入注意力机制层,达到增强漆箱纹饰细节的作用,如图4所示,细生成器也是一个编码-解码结构,由门控卷积层、改进的膨胀门卷积层和上下文注意力层组成.该编码部分又由两个编码结构以并联形式组成,其中一个编码结构中包含一个上下文注意力层.通过使用上下文注意力,可以使生成器有效的从遥远的空间位置借用信息来重建局部缺失的像素.其构想是,假设生成的特征是对有效像素区域特征的合理估计,并根据已知有效的区域特征与缺失区域内生成的特征之间的相似性来确定合适的参考.如公式(5)所示:

(5)

式(5)中:fx,y为缺失区域patches(代表图像中的一小块区域)的特征,bx′,y′为有效区域patches的特征,Sx,y,x′,y′为缺失区域特征和已知有效区域特征之间的相似性.

(3)判别器

图3所示判别器位于GC-GAN模型的末端.由于GAN判别器难以训练高分辨率、高清细节的图像,因此GC-GAN使用著名的马尔可夫判别器(PatchGAN)这一全卷积网络,用以提高网络训练稳定性.此判别器将输入映射为N×N维的矩阵X,X的每一项xi,j是图像中被划分为每一小块区域是否为真的概率,判别器的最终输出为矩阵X的均值.PatchGAN的感受野所对应一小块输入图像区域的真实性判别概率,这使得GC-GAN模型在训练过程中更能关注图像细节.

1.2.3 损失函数

本文使用模型的损失函数分为两部分,生成器G损失函数和判别器D损失函数,其表达式如下式所示:

生成器G的损失函数:

lossG=-Ez~P(z)[D(G(z))]

(6)

判别器G的损失函数:

lossD=Ex~P(data)[ReLU(1-D(x))]+Ez~P(z)[ReLU(1+D(G(z)))]

(7)

式(6)、(7)中:E表示期望,z表示输入生成器的噪声,Pz(z)表示生成模型的概率,G(z)表示生成器生成的图像,x表示真实样本,Pdata(x)表示训练样本的真实分布,D(x)表示判别器判断是真实图像的概率.

2 修复过程

对西安凤栖原出土的大型彩绘漆箱纹饰图案的修复工作,在操作系统Ubuntu20.04下进行,使用Python3.9及Tensorflow2.6.0搭建的深度学习环境进行实验.硬件平台参数为Intel i9-9900K的CPU,频率为3.20 GHz,32.0 GB RAM,RTX2080Ti的GPU.修复过程如下.

2.1 漆图像的采集和预处理

2.1.1 图像采集

为了确保得到全面准确的漆箱图像数据信息,首先使用手持数码相机在陕西省考古研究院(即西安凤栖原出土的大型彩绘漆箱现场)近距离全方位拍摄出土彩绘漆箱的箱体,得到实验所需的图像数据,图5是部分数字图像.

图5 漆箱原始图像

2.1.2 图像预处理

从图5可见漆箱的损坏程度严重,很难得到完整的纹饰图案信息.裂纹、污渍、扭曲、缺失等状况导致漆箱纹饰图案辨识困难,是多种损坏情况并存的复杂问题,修复难度极高,使用一次性修复技术手段并不现实.针对该问题,本文使用化繁为简的思想将整个修复任务进行拆分.通过观察可以发现,虽然纹饰图像结构复杂且损坏严重,但仍有规律可循:存在若干具有一定纹饰元素的最小图像单元,这些单元在图案中的周期性平移、对称排列,构成了漆箱纹饰图案的雏形.因此,将整幅纹饰图像分割为多个独立的纹饰单元.图6是经图像分割得到的部分单元纹饰图像,这些单元破损程度不尽相同.

图6 经图像分割得到的最小单元纹饰图案

对这些单元进行图像增强和畸变矫正,以提升图像质量,随后对残损区域进行图像掩膜处理.

2.2 GC-GAN模型训练

对1.2.2构建的GC-GAN模型进行训练,使之成为一个可根据图像上下文语义信息对不规则缺失区域进行修复的网络模型.为了验证该网络的优越性,将GC-GAN与三种图像修复方法Criminisi、CE和EdgeConnect的实验修复效果进行对比.

2.2.1 训练数据集及数据处理准备

训练一个稳定的修复模型,需要用大量的训练数据,由于汉代木质漆箱样本数量较少,会导致预训练模型泛化能力不足,故使用多种公共数据集来训练本文模型.CelebA人脸数据集包含202 599幅人脸图像,SVHN街景门牌号数据集包含99 289幅门牌号图像,Oxford 102 flowers数据集包含8 189幅花卉图像,Stanford cars数据集包含16 185幅汽车图像,DTD纹理识别数据集包含5 640幅纹理图像,ImageNet自然图像数据集包含50 000幅自然图像,图像大小均在300×300和640×640之间.将上面的数据集随机打乱选取10 000张,其中8 000张图片作为训练集,2 000张图片作为测试集,尺寸均规范为64*64输入网络进行训练.

2.2.2 公共数据修复验证

为了验证本文模型对于破损面积大且不规则图像具有较好的修复效果以及良好的稳定性,首先随机选取六张公共数据图像进行修复实验,对其添加矩形掩膜作为破损区域,修复效果如图7所示.其中,图7(a)为原图,7(b)为掩码图,7(c)为Criminisi算法修复的效果图,7(d)为CE方法修复的效果图,7(e)为EdgeConnect方法修复的效果图,7(f)为本文带有门控卷积的生成对抗网络的修复效果图.由图可知,本文算法修复效果相较于其它几种算法更加稳定、合理,主观视觉更加流畅.

图7 不同算法对公共数据添加大面积破损区域修复效果对比图

其次,以结构相似性(Structural Similarity,SSIM)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)两个图像评价指标来客观对比各算法的优越性.其中,SSIM的输出值越接近1,证明两张图像越相似,PSNR越大,代表修复的图像质量越好.以6张公共数据集中的图片作为算法测试代表,验证实验结果如表1和表2所示.表中,①~⑥表示图7中对应第一列的6幅原图.

表1 本文算法与其他算法SSIM评价对比

表2 本文算法与其他算法PSNR评价对比

由表1和表2可知,本文算法相较于其他算法,其SSIM数值更接近于1,PSNR数值均优于其他算法,结合各算法修复效果图对比,本文提出的GC-GAN网络模型修复效果更佳.

2.3 漆箱纹饰图案修复

由于GC-GAN修复大面积破损图案的效果最好,因而本文使用GC-GAN对大型彩绘漆箱纹饰图案进行修复.为了验证GC-GAN方法的稳定性以及对于漆箱图像的修复性能,本文对预处理后的漆箱单元纹饰图像分别使用Criminisi、CE、EdgeConnect以及所提出的方法进行修复对比.与Criminisi方法对比的目的是为了展示基于GAN的方法更适用于大面积破损图像的修复,且更加快速;与CE方法对比的目的是为了展示基于粗生成器-细生成器的方法对于图像细节有更好的修复效果;与EdgeConnect方法对比的目的是为了展示本文GC-GAN方法对于不规则损坏图像修复有更好的效果.

这里对比修复效果,主要观察修复图像的纹理是否吻合、颜色是否一致、修复信息是否合理以及修复之后是否有明显的修复痕迹.如图8可知本文方法与其他3种方法修复漆箱纹饰图案的效果.

图8 不同算法对真实破损漆箱纹饰图像修复效果对比图

图8中第一列为含有破损区域的原始漆箱纹饰图,第二列为原图的掩码图,第三列为Criminisi算法的修复效果图,第四列为CE方法的修复效果图,第五列为EdgeConnect方法的修复效果图,第六列为本文GC-GAN的修复效果图.通过对修复结果的定性分析可以看出,对于连续大面积破损图像和高分辨率破损图像,本文方法修复效果理想.相较于Criminisi算法、CE方法以及EdgeConnect方法,更加适合连续大面积破损图像的高分辨率修复工作.

利用GC-GAN模型完成了漆箱表面纹饰单元图案的修复,按照图1所示的数字化修复过程,将完成修复的纹饰单元图案与漆箱箱体结构相融合,最终完成了“西安凤栖原西汉张安世家族墓地”出土的大型彩绘漆箱的数字化修复,修复效果如图9所示.修复效果达到了漆箱数字化修复纹理吻合、颜色一致、修复信息合理以及修复之后有没有明显修复痕迹的要求.

图9 漆箱外形数字化还原透视图

3 结论

针对于表面破损严重、纹饰信息大面积缺失的古代漆器纹饰图案修复困难,提出了“图像处理技术+深度学习模型”的文物图像数字化虚拟修复方法.修复工作关键技术是构建了带有门控卷积的生成对抗网络(GC-GAN),以有效解决漆器纹饰图案大面积破损且破损区域不规则的图像高分辨率修复问题.在漆箱实物图像的采集和预处理基础上,使用GC-GAN实现了对汉代木质彩绘漆箱纹饰图像的高质量修复,修复效果良好,且优于所对比的其他算法.本文的图像修复工作有力地支撑了西安凤栖原西汉大型彩绘漆箱的数字化修复工作的圆满完成,具有一定实用价值.

猜你喜欢
纹饰图案卷积
带状纹饰的类型
蜡染的纹饰探讨
基于3D-Winograd的快速卷积算法设计及FPGA实现
雕漆纹饰的修复
敦煌莫高窟第285窟龛楣纹饰研究
从滤波器理解卷积
画中谜
画中谜
画中谜
基于傅里叶域卷积表示的目标跟踪算法