基于Huber函数双边全变分的多帧文档图像超分辨率重建*

2014-03-27 02:15梁风梅邢剑卿罗中良邓雪晴

中山大学学报(自然科学版)(中英文) 2014年4期

梁风梅，邢剑卿，罗中良，邓雪晴

(1.太原理工大学信息工程学院，山西太原 030024) (2.惠州学院计算机系，广东惠州 516007)

自从Tsai和Huang[1]提出可以由一组低分辨率(LR)图像序列恢复出单帧高分辨率(HR)图像的理论，图像超分辨率重建一直是图像处理领域研究的热点。

文档图像超分辨率重建主要用于光学字符识别软件(OCR)的预处理过程，也可用于从模糊的监控视频中重建HR文档图像[2]，或者对web页面的模糊文档进行实时重建。常见的图像插值方法远远达不到理想的重建质量，近期国内外学者设计了一些主要针对文档图像的重建技术。Fan等[3]利用局部约束一致性在重建过程进行线性正则化，并自适应生成最佳匹配的HR文档图像块。Patanavijit[4]运用M3SS基于块仿射配准方法，结合分块技术和仿射模型对降质文档图像重建。Nasonov等[5]把差分稳定双边全变分和双峰惩罚函数引入正则化项，使算法在文档图像重建中具有很强的去振铃和去噪能力。Kumar[6]在基于稀疏表示的重建基础上，指出虽然字符形状不一致，但是其边缘和笔画曲线等特征都是相似的，最后通过字典训练出了稀疏分解的理想HR图像块。另外，贝叶斯估计方法在文档图像重建中也受到普遍关注[7]。

但是，上述方法都存在着算法复杂度高、噪声模型单一、实时性和鲁棒性差等缺点。鉴于此，本文选用算法复杂度较低的正则化方法，减小配准偏差的干扰，从而提升重建效率。目标函数数据拟合项中的L1范数有利于保持边缘[8]，主要针对拉普拉斯噪声模型；L2范数有利于平滑噪声[9]，主要针对高斯噪声模型。然而，实际图像中总是夹杂着加性高斯噪声和拉普拉斯脉冲噪声[10]，而且在重建过程中噪声及其分布模型都有可能发生突变，所以上述方法都不能保证高质量的重建。本文提出利用不针对特定噪声模型的G&M范数作为数据拟合项，并在BTV正则项的基础上引入了Huber函数，使其在水平、垂直、对角线方向估计像素点的梯度值，利用局部结构特征辨别边缘和平面区域，克服TV和BTV正则化方法不能充分利用边缘方向信息的缺陷[11]。

1 图像退化模型

通常把HR图像的降质过程作为观察模型，通过降质模型建立HR和LR之间的关系，最后生成求解HR的方程。设HR图像大小为L1N1×L2N2，L1、L2分别为垂直和水平方向上的下采样因子，则LR图像的尺寸为N1×N2。LR图像是HR图像通过下采样、平移、模糊、加噪声等一系列操作获得，图像的降质模型为：

uk=DkHkBkz+vk=1,2,3…

(1)

k为LR图像序列的帧数，uk为第k帧LR图像，Dk为下采样矩阵，大小为(N1N2)2×L1N1L2N2；Hk为运动矩阵，大小为L1N1L2N2×L1N1L2N2；Bk为模糊矩阵，大小为L1N1L2N2×L1N1L2N2。z是原始图像信号，v为加性高斯噪声。

多帧LR图像重建时需要融合图像之间的相关信息，由于本身分辨率低且帧数多，所以对运动估计的精确度要求很高。本文选用的Lucas-Kanade(LK)光流配准算法采取金字塔分层处理[12]，可在精确计算Hk前提下减小计算量，能够正确检测亚像素级的移动距离，更重要的是，它能准确反映运动边缘部分的光流信息，而且对平面区域的光流变化较敏感。

令Ak=DkHkBk，线性算子Ak尺寸为(N1N2)2×L1N1L2N2，有

uk=Akz+v

(2)

由(2)式可知，图像的重建过程就是通过退化模型估计反求z的过程。

2 正则化设计

正则化过程中依据解的先验信息构建附加限制条件，以保证重建解的确定性和唯一性。利用正则化方法分析退化模型，可以构造出加入求解限制条件的目标方程：

N=L1N1×L2N2

(3)

(4)

λ为正则化系数，λ取值偏大，则重建结果就偏于平滑，不能突出体现边缘区域；λ取值偏小，则数据拟合项的值偏低，对配准误差不敏感。所以，对λ的适当选取是获取高质量重建图像的重要前提，本文选取λ的经验值为0.7。

2.1 BTV正则化

Ω(z)为正则化项，有助于算法从最后的解中剔除伪解，加快迭代速率，补偿先验知识。本文设计了结合BTV和Huber函数的正则化项，力求在保证求得最优解的前提下通过正则化最大限度地运用字符局部结构特征信息重建最佳效果。

Ω(z)=BTV(z)+aρ(z)

(5)

(6)

2.2 Huber先验模型

文档图像具有梯度值分段光滑性质[13]，梯度值在图像的边缘像素点处较大，在平面像素点处较小，因此，可根据图像梯度统计信息设定一个阈值区分边缘和平面区域。(7)式中a为边缘梯度阈值。

(7)

梯度值较大的像素点对应着边缘区域，即|z|>a，Huber函数表达式为2a|z|-a2，观察图中函数值偏小，此时可加大Ω(z)项中BTV(z)的作用力度，有利于消除字符边缘上的异常值。梯度值较小的像素点对应着平面区域，即|z|≤a，Huber函数表达式为z2，观察图中函数值偏大，可增强自身ρ(z)项的作用，使正则化项在平面区域能更注重细节，充分利用字符局部结构特征信息，见图1。

图1 Huber函数图Fig.1 The figure of Huber function

图2以中文字符“木”和英文字符“C”体现了中英文字符中典型的结构特征。Huber函数在正则化项中补偿字符结构特征的先验信息，以克服字符边缘纹理走向复杂多变的难点，并分别在0°、45°、90°、135°这四个方向上利用局部近似微分估计出像素点的梯度值：

(8)

图2 字符结构特征Fig.2 Structural features of characters

2.3 算法实现

(9)

本文采用最速下降法得到如下迭代式，并求解(3)式的极小化问题，加快收敛速度得到最终解实现重建。

(10)

β为梯度方向上的迭代步长，在初始迭代阶段取偏大值以加快收敛速度，在即将收敛阶段取偏小值以保证重建精确度。

3 实验结果及分析

实验在matlabR2012平台上进行。实验选用的原始HR图像大小为128×128。首先对文档HR图像进行下采样、平移、模糊、加噪声获取30帧LR图像。下采样因子为2，获得尺寸为64×64的LR图像，然后对图像在水平和垂直方向上进行随机平移运动。为了模拟摄像头的PSF模糊效果，将图像与核大小为3×3标准偏差等于1的对称高斯低通滤波器卷积运算。同时加入信噪比(SNR)为12 dB的高斯和拉普拉斯混合噪声，以验证算法的鲁棒性。所有方法迭代次数都为20次。

3.1 光流配准

首先将LR图像双线性插值到高分辨率栅格中，上采样因子为2。分别选择序列图像中第一帧和第二帧作为参考帧和配准帧，然后将配准结果作为和下一帧LR图像配准的参考帧。图3和图4分别为中英文字符的配准过程，观察(c)图可以发现LK光流配准算法能准确地检测出亚像素级的运动，并且对噪声不敏感，其光流场连续光滑。(d)图为配准融合图像信息之后的结果。

图3 中文字符文档图像配准Fig.3 Registration of Chinese characters image

图4 英文字符文档图像配准Fig.4 Registration of English characters image

3.2 重建效果分析

图5和图6中L1BTV和L2BTV能在一定程度上锐化字符边缘，但是由于其方法只能限定于消除特定的模糊噪声，所以重建结果受到噪声的污染较为严重，导致重建图像出现明显的振铃效应，无法正确分辨具有复杂笔画的字符，如图5(b)和(c)中的汉字“眦”。在图6中英文字符间距较小，采用L1BTV和L2BTV方法重建时由于LR图像边缘连续性不稳定，导致出现某些英文字符连笔的现象，如(b)和(c)图中的字母“Q”和“R”等。(d)图运用的是G&M方法，有效地消除了噪声，但是由于正则化项中没有加入Huber函数，不能充分利用边缘方向上的信息，导致字符笔画不均匀，甚至也出现笔画严重变形、连笔等现象。本文方法充分利用字符结构特征的先验信息，在平滑平面区域同时锐化边缘，克服了字符笔画复杂和间距小等难点，重建结果具有较高的分辨率，基本上已经消除了噪声，能够清晰地辨别出字符。

图5 中文字符文档图像重建结果比较Fig.5 Reconstruction results of Chinese characters image

图6 英文字符文档图像重建结果比较Fig.6 Reconstruction results of English characters image

3.3 重建质量评价

本文用PSNR值客观评价三种方法的重建结果质量，PSNR由(11)式求得，具体值见表1。

(11)

表1 四种方法重建结果的PSNR值与重建时间
Table 1 PSNR and reconstruction time of the four reconstructions

字符类型L1BTVL2BTVG&M方法本文方法中文字符/dB27.3127.7228.4329.30英文字符/dB27.4827.5328.3228.96平均重建时间/s2.332.452.031.73

图7为汉字和英文字符的识别率对比折线图，识别率是利用汉王OCR识别软件测试得出，图中字符识别率是各个迭代阶段中英文字符识别率的平均值。观察图中可知本文方法在各个迭代阶段的识别率均高于其他三种方法，充分说明本文方法的优越性。

图7 各个迭代阶段的字符平均识别率比较图Fig.7 The comparison of characters average recognition rate in specified iteration stages

4 结论

本文提出一种基于Geman&McClure范数的Huber函数BTV正则化算法，并采用高精度的LK光流配准方法对中文字符和英文字符LR图像进行运动估计。与L1BTV、L2BTV、G&M方法得到的重建结果进行对比，验证了本文方法针对低分辨率文档图像的特征，能够利用字符结构特征的先验模型，克服了由于模糊造成严重的边缘不连续现象。在同等条件下，本文方法比其他算法能够更高效地保持边缘细节、抑制多种未知噪声污染、消除振铃效应，显著提高LR图像中的字符识别率，缩短运算时间，适用于LR文档图像超分辨率重建。

[1] HUANG T S, TSAI R Y. Multi-frame image restoration and registration [J]. Advances in Computer Vision Image Processing, 1984, 1:317-339.

[2] 万雪芬，韩芳. 视频监控图像的超分辨率复原研究[J]. 激光杂志, 2014,35(3): 5-8.

[3] FAN W,SUN J. Local consistency constrained adaptive neighbor embedding for text image super-resolution[C]∥ Proceedings of 10thIAPR International Workshop on Document Analysis System(DAS), 2012:90-94.

[4] PATANAVIJIT V. Video enhancement using a robust iterative SRR based on a Geman&McClure stochastic estimation with a general observation model[C]∥ International Conference on Electrical Engineering/Electronics Computer Telecommunications and Information Technology (ECTICON), 2010:875-879.

[5] NASONOV A V, KRYLOV A S. Text images super-resolution and enhancement[C]∥ 5thInternational Congress on Image and Signal Processing (CISP), 2012: 617-620.

[6] KUMAR V, BANSAL A. Sparse document image coding for restoration[C]∥12thInternational Conference on Document Analysis and Recognition (ICDAR), 2013:713-717.

[7] KATHERINE D, GREGORY K M. Bayesian super-resolution of text in video with a text-specic bimodal prior [J]. International Journal on Document Analysis and Recognition, 2005, 7: 159-167.

[8] SONG H H, ZHANG D, WANG P K, et al. An adaptive L1-L2 hybrid error model to super-resolution[C]∥ 17thIEEE International Conference on Image Processing, 2010:2821-2824.

[9] 郭昌. 小波变换与HMT模型的图像插值算法[J]. 中山大学学报：自然科学版，2012，51(3)：55-59.

[10] 杨克伟. 基于光流法的迭代反投影超分辨率重构算法[J]. 现代计算机:专业版，2014(3):31-34.

[11] XU Z G, SU X Q, ZHANG Z P. Multi-frame image super-resolution by Total-Variation regularization[J].Journal of Information and Computational Science, 2012, 9(4):945-953.

[12] TONG W. Formulation of Lucas-Kanade digital image correlation algorithms for non-contact deformation measurements: a review [J]. Strain, 2013, 49(4):313-334.

[13] BANERJEE J, JAWAHAR C V. Super-resolution of text images using edge-directed tangent field[C]∥ Proceedings of the 8th IAPR International Workshop on Document Analysis Systems, 2008:76-83.