基于深度学习的多视图火焰面三维重建

2024-04-28 10:25宋泠澳刘涛姜东李华东赵冬梅谢建鞍

西南科技大学学报 2024年1期

宋泠澳　刘涛　姜东　李华东　赵冬梅　谢建鞍

摘要：针对火焰面三维重建时存在背景噪点的问题，提出了一种基于MVSNet多视图三维重构网络的 IM - MVSNet网络用于重构层流火焰的火焰面。该网络通过对输入采样图像的参考帧以及邻域帧进行图像分割，去除采样时的背景噪声，得到高质量分割图像，然后将多视图图像进行三维重建，构建层流火焰面三维点云，进而得到重构的层流火焰面。通过不同重构模型火焰面重构效果对比，本文提出的三维重构网络能够有效减少重构火焰面的点云噪点，提高火焰面重构精度，为燃烧研究提供了一种新的方法。

关键词：多视图三维重构网络深度学习点云背景噪声

中图分类号：TP183 文献标志码：A 文章编号：1671-8755（2024）01-0102-09

Multi-view 3D Reconstruction of the Flame SurfaceBased on Deep Learning

SONG Ling ao1 ， LIU Tao1 ， JIANG Dong2 ， LI Huadong2 ， ZHAO Dongmei1 ， XIE Jian an1

（1. School ofComputer Science and Technology ， Southwest University ofScience and Technology ， Mianyang 621010 ， Sichuan ， China;2. AECC Sichuan GasTurbine Establishment ， Mianyang 621703 ， Sichuan ， China ）

Abstract： To address the background noise in the 3D reconstruction of the flame surface ， an IM - MVSNet network based on the MVSNet multi-view 3D reconstruction network was proposed for reconstructing the flame surface of laminar flow flames . The network obtained high-quality segmented images by image segmentation of the reference frames and neighboring frames of the input sampled images to remove the background noise during sampling ， and then reconstructed the multi-view images in 3D to build a 3D point cloud of the laminar flame surface ， and then obtained the reconstructed laminar flame surface . The reconstruction results of the flame surface of different reconstruction models show that the 3D reconstruc-tion network proposed in this paper can effectively reduce the point cloud noise of the reconstructed flame surface ， improve the reconstruction accuracy of the flame surface ， and provide a new technical means for combustion research .

Keywords ： Multi-view;3D reconstruction network; Deep learning; Point cloud; Background noise

燃烧是人类社会赖以生存的重要现象，一直伴随着人类社会的发展。在进入近现代社会后，更是人类获取能量、动力的重要手段之一，从居家使用的热水器与燃气灶到内燃机，再到航空航天发动机，其本质都是通过燃烧将燃料中蕴含的化学能转化为动能、热能等不同形式的能量并加以利用。燃烧过程是一个极为复杂的多因素耦合作用过程，其中包括了化学反应、传热与传质、辐射、湍流、动量和能量输运等复杂且相互作用的因素。因此，燃烧过程的研究受到广泛关注。

得益于计算机视觉以及人工智能技术的发展，卷积神经网络可以识别到图像中的特征信息[1-2] ，使得三维重建技术取得了进步，文献[3]首次将深度学习应用到三维重建领域，提出了基于单目估计深度的方法，该方法基于体素形式用单张图像使用神经网络直接恢复深度图，将网络分为全局粗估计和局部精估计，并用一个尺度不变的损失函数进行回归。文献[4]基于體素形式提出的3D - R2N2模型使用 Encoder -3DLSTM - Decoder 的网络结构建立2D 图形到3D 体素模型的映射，完成了基于体素的单视图／多视图三维重建（多视图的输入会被当作一个序列输入到 LSTM 中，并输出多个结果）。 Yao 等[5]在传统多视图立体匹配（ Multi-view stereo ， MVS）的基础上提出MVSNet网络，利用卷积神经网络进行特征提取，通过可微单应性变换2D 到3D 的转换方法以及 U - Net 网络产生的概率体生成深度图。尽管基于深度学习的三维重建技术在一定程度上简化了三维重建难度[6-8] ，且有了一定的研究成果，然而对于火焰的三维重建主要还是使用了火焰电学重建技术、火焰激光重建技术以及火焰化学发光重建技术等，基于计算机视觉技术的火焰三维重建一直停留在使用传统三维重建技术上，罕有使用深度学习技术进行火焰面三维重建的研究。

火焰并非刚体，具有高亮、边缘变化速度快、表面积不规整等特性，会导致常规三维重建算法产生较大误差[9]。到目前为止，对于火焰进行三维反演的主流是进行三维温度场重建，由于实际的燃烧过程中存在辐射、对流等现象，仅依靠温度场进行三维重构，实际上重构得到的轮廓边界并不完全等同于火焰外轮廓。本文讨论的火焰面是指火焰的外轮廓，即化学反应发生最激烈的区域，具有亮度高、温度高、温度梯度大、某些特征组分（如 OH）浓度梯度大等特点，对其重构，可以快速获取火焰当前的外轮廓，评估火焰发展的态势、对环境气体的卷积量以及与环境气体之间动能、动量交互的基本趋势，从而初步评估火焰燃烧的质量。本文针对层流火焰面三维重建问题提出了一种基于深度学习的多视图立体匹配网络。一方面，期望解决在受限空间内通过诸如内窥镜、光学窗等拍摄的光学图像去重构该空间内火焰面发展态势，用于航空发动机试验等内部流道中火焰燃烧质量的快速评价；另一方面，尝试解决火灾现场通过红外或光学相机远距离拍摄的图像去重构火焰面，以预估火焰发展趋势，用于火灾现场火焰态势评估。另外，本文提出的方法可为后续研究湍流火焰及重构湍流火焰以评估湍流火焰发展机制提供参考方案。

1 相关工作

1.1 层流火焰

本文中重构的是层流火焰面，层流火焰是指将静止气体或者层流流动气体（ Re =2300）引燃后得到的火焰，其特点是火焰锋面光滑，不会产生褶皱，火焰传

2.1 可微单应变换

因为 I1 和{I1} N 的视角不一致，模型的目的是估计参考视图的深度图，需要将经过可微分的单应变换变形到对应的相机坐标系内。

设i为对应于特征图的相机内参矩阵、旋转矩阵以及平移矩阵。

将视图的特征弯曲到参考视图 I1 的 d 深度，设 p 为对应视图的像素坐标点，K 为对应视图的内参矩阵，Pc 为对应视图的相机坐标系坐标，Pw 为世界坐标系坐标，R 为对应视图的旋转矩阵，C 为对应视图的平移矩阵，n T 为参考视图 z 方向的向量。

对于视图 I1可以用式（5）表示：

对于视图i可以用式（6）表示：

联立式（5）、式（6）得式（7）：

投影几何信息如式（8）所示：

将式（8）带入式（7）可得式（9）：

由于 pi 与 p 1 为齐次坐标，消去常数 d/Zci得式（10）：

式（10）可写为式（11）形式：

式（11）中可微单应变换 H（d）如式（12）所示：

2.2 深度估计与优化

合并多个特征量{ Vi 价映射关系如式（13）所示：

式（13）中 R V ×R V …R V 的数量为 N ，用 W， H ， D ， F 表示宽、高、视觉图的数目以及通道数，V = WHDF/4 ，因此，代价体 C 如式（14）所示：

式（14）中 V（—）t 为所有特征体中的平均特征体。

得到的代价体经过一个4级的3D U - N et 结构来生成一个概率体，这个概率体表示为在每个深度下每個像素的可能性大小。数学期望方式如式（15）所示：

式（15）中 P（d）是所有像素点在深度生成 d 上的概率估算。

由概率体得到的初步深度图使用分割后的参考帧信息进行细化，将深度图与分割后的参考帧串连成一个4通道的输入，经过神经网络得到深度残差，然后加到之前的深度图上从而得到最终的深度图。

2.3 损失函数

为了更好地指导深度学习网络训练，本文设置损失函数指导网络进行训练，其损失函数如式（16）所示：

式中：loss1为图像分割网络的损失函数，采用的是交叉熵损失函数；loss2 损失函数由初始深度图与 GT（Ground truth）深度图之间的绝对平方差和细化深度图与 GT 深度图之间的绝对平方差组成。

式中：q 为火焰的真实像素；q（^）为分割后的火焰图像。

式中：S1 = ?d（p）- di （p）?1 为初始深度图与 GT 深度图之间的绝对平方差；S2 =?d（p）- dr （p）为细化深度图与 GT 深度图之间的绝对平方差。 d（p）是 GT 深度图的值，di （p）是初始深度图的值，dr （p）是细化深度图的值。

3 实验结果与分析

本文中三维重构计算平台为：Ubuntu16.04操作系统，CPU 为 AMD Ryzen Threadripper 3990X 64- C ore Processor ， GPU 为 NVIDIA TITAN RTX ，使用深度学习算法框架 Pytorch1.4.0。

3.1 数据采集

火焰不是刚体，火焰面会随着时间以及各种作用因素发生变形，但是由于层流火焰的传播速度较慢，在采集火焰面图像过程中使用较高的快门速度所得到的火焰面图像可以近似作为刚体处理。本文数据采集目标使用型号为 X190的9300帧超高速相机将火焰近似看为刚体进行数据获取，共采集960组5 760张合格火焰图像，每1 s 可以获取9300帧火焰图像，即相当于每相邻两帧图像之间火焰面移动的平均位移为3.763×10-5 m ，可以作为近似刚体处理。

为完整采集火焰四周数据，相机的布置环绕所采集的火焰目标，其机位布置如图5所示。每一组图像包括6个视角下的图像，在后续进行训练与测试时，以组为单位进行训练与测试。

所采集火焰为异丁烷、正丁烷、丙烷混合燃气，质量比为13∶1∶4。喷嘴尺寸为9 cm ×2 cm ×7 cm ，材质为黄铜，净重为131 g。

通过不同视角的相机所采集到的层流火焰图片如图6所示。

在前期工作中，采用传统多视图立体匹配算法对不同视角所采集的图片进行立体匹配计算，得到的火焰深度图如图7所示。

在后续的训练与测试工作中，使用的数据集为图6所示的采集的层流火焰和图7所示的生成的火焰深度图，火焰深度图为所采集的层流火焰的标签。

3.2 实验结果

3.2.1 训练、测试与验证

所采集的数据采用立体匹配技术[14] ，利用三角测量法将两两图像之间的视差信息转化为深度信息，用于深度学习。其中720组共4320张图像进行训练，144组共864张图像用于验证，剩余图像用于测试。图像尺寸为640×512像素，特征提取得到的特征图大小为160×128像素，为确保能够均匀覆盖深度范围，首次迭代每个像素的深度值随机，训练50次，前10次的学习率为0.001 ，在第10 ， 20 ， 25次训练时学习率除以2使得模型更好收敛，50次的损失函数变化如图8所示。

随着训练的不断迭代，模型的损失值不断降低，前15次的训练损失值下降梯度最大，降低最为明显，15次到50次模型的训练损失值下降速度趋于平缓。测试损失值在15次前与训练损失值下降趋势相同，在15次到40次之间测试损失值仍有波动，40次后测试损失值低于训练损失值且没有明显波动，说明训练效果达到合理阶段。

本文所提模型可以有效去除采集火焰信息时造成的背景噪点。其生成的火焰表面三维点云可以直观反映火焰形状，噪点较少，图9为原始火焰图片与其生成的点云对比。

3.2.2 相机数量分析实验

数据采集时，采用的数据采集机位如图5所示。当相机数量不足以围绕火焰进行数据采集时，所得到的数据并不足以支撑生成完整的火焰面三维点云数据，得到的火焰面如图10所示。

图10展示了相机对火焰面进行数据采集时分别缺失相机1 ， 6 ，相机2 ， 3 ， 4以及相机1 ， 6 ， 5时所生成的火焰面三维点云数据情况，与图9由6个相机所采集数据生成的火焰面三维点云数据相比，完整的火焰面点云数据更能直观表现火焰形状以及表面纹理。

3.2.3 驗证实验

本文设定倒角距离（Chamfer distance ， CD）[15]、交并比（ Intersection - over - Union ， IoU）、准确度（Accuracy ， Acc .）、r 分数（ r - score ）与搬土距离（Earth mover s distance ， EMD）作为火焰面三维重建评价指标。

为了验证本文所提基于深度学习的火焰面三维重建算法的性能，对比了三维重建方法 Pixel2Mesh ，3D - R2N2 ， JDACS - MS ， MVSNet与PatchmatchNet使用本文所制作的数据集进行火焰面重构的效果，评价结果如表1所示。

表1中 Pixel2Mesh 模型为三维网格模型，与本文模型相比，其精度明显低于 IM - MVSNet且 Pix-el2Mesh 生成的三维模型表面过于平滑，不能反映火焰表面纹理。与3D - R2N2模型相比，在数据量较少的情况下3D - R2N2能够比 IM - MVSNet更好进行重建，但3D - R2N2重建出的火焰表面与真实火焰相差过大，在数据量充足的情况下，IM - MVSNet的 CD 值与IoU值都优于3D - R2N2。与 JDACS -MS 相比，本文模型优势为监督学习，模型对火焰三维重建精度高于 JDACS - MS 。与MVSNet以及PatchmatchNet相比（结合表1与图10），本文模型生成的深度图背景噪声较少，由于剔除了背景噪点，点云数据中点云点数值在背景噪声方面明显少于MVSNet与PatchmatchNet。

由此可见，本文所提基于深度学习的火焰面三维重建算法在火焰面三维重建工作上有较好性能，该三维重构网络能够有效减少重构火焰面的点云噪点，生成的火焰面形状清晰，能有效反映火焰形态，有助于进行火焰体积计算、火焰态势评估以及火灾防治等研究。

3.2.4 重构时间比较

网络模型的火焰面重建速度，可以直观表现模型的时间复杂性。基于本文实验环境，使用火焰面三维重建数据集对本文所提方法、MVSNet以及传统三维重建方法的开源程序进行火焰面重建时间测试，比较在相同环境下对单组6张火焰面图像进行重建所消耗的时间，结果如表2所示。由表2可以得出，上述算法中由于MVSNet没有在重建前对火焰背景进行去噪，所以运算速度最快，本文次之。但由3.2.3小节可知，本文算法精度优于MVSNet。与效果最好的传统方法Colmap进行比较，本文方法的运行时间是其运行时间的39.04%。因此，本文方法重建精度高且运行时间较短。

3.2.5 消融实验

为了验证 IM - MVSNet网络中图像分割模块的有效性，本文使用 IM - MVSNet与MVSNet进行对比，结果如图11所示。

图11（ a ）为 IM - MVSNet生成的深度图，图11（ c ）为MVSNet生成的深度图，可以看出MVSNet不能有效去除背景噪声。图11（b）为 IM - MVSNet生成的点云，图11（ d）为MVSNet生成的点云，图片显示图11（d）中火焰面点云掺杂噪点较多，会对火焰面积计算、火焰态势分析等应用造成干扰。

为了更为直观地验证 IM - MVSNet网络中的图像分割模块的有效性，进行了消融实验，结果如表3所示。

结合表3与图11可以得出，在保留有图像分割模块的情况下所得到的火焰面三维重建结果精度高于没有图像分割模块模型的结果精度。因此，图像分割模块对于模型精度有一定的提升作用。

4 结论

本文提出了一种基于深度学习的多视图立体匹配网络，通过对所采集的原始火焰图片进行实例分割，得到分割后的无背景噪声高质量火焰图片，分割后的图片通过卷积神经网络、可微单应性变换、3D U - Net 结构来生成深度图，最终生成火焰面点云。本文所提出的三维重构网络能够有效减少重构火焰面的点云噪点，生成的火焰面形状清晰，能有效反映火焰形态。下一步将对得到的火焰面点云数据进行处理，进一步计算火焰体积、表面积，并对火焰态势做进一步研究。

参考文献

[1] 张冀，郑传哲．基于多尺度 CNN - RNN 的单图三维重建网络[J].计算机应用研究，2020 ， 37（11）：3487-3491.

[2] 张豪，张强，邵思羽，等．深度学习在单图像三维模型重建的应用[J].计算机应用，2020 ， 40（8）：2351-2357.

[3] SILVER D ， SCHRITTWIESER J ， SIMONYAN K ， et al.Mastering the game of Go without human knowledge [ J].Nature ， 2017 ， 550（7676）：354-359.

[4] CHOY C B ， XU D F ， GWAK J ， et al.3D - R2N2： a u- nified approach for single and multi-view 3D object recon- struction [C]∥European C onference on C omputer Vision. Cham ： Springer ， 2016：628-644.

[5] YAO Y ， LUO Z X ， LI S W ， et al. MVSNet ： depth infer- ence for unstructured multi-view stereo [ C]∥EuropeanConference on C omputer Vision. Cham ： Springer ， 2018：785-801.

[6] BAYATI H ， NAJAFI A ， VAHIDI J ， et al.3D reconstruc- tion of uneven-aged forest in single tree scale using digitalcamera and SFM - MVS technique [ J ]. Scandinavian Journal of Forest Research ， 2021 ， 36（2/3）：210-220.

[7] ZHANG J ， LUO B ， SU X ， et al. A convenient 3D recon- struction model based on parallel-axis structured light sys- tem [J]. Optics and Lasers in Engineering ， 2021 ， 138：106366.

[8] SUO P ， XU L J ， SUN J T ， et al. 3D reconstruction in planar array electrical capacitance tomography based on depth estimation and sparse representation [ C ]∥2021IEEE International Instrumentation and MeasurementTechnology Conference （I2MTC）. IEEE ， 2021：1 -5.

[9] ZIELI SKI P ， MARKOWSKA - KACZMAR U . 3D ro-botic navigation using a vision-based deep reinforcement learning model[J]. Applied Soft Computing ， 2021 ， 110：107602.

[10] ZHANG Q T ， LUO S ， WANG L ， et al. CNLPA - MVS： C oarse-hypotheses guided non-local PAtchMatch multi-view stereo [J]. Journal of Computer Science & Technol-ogy ， 2021 ， 36（3）：572-587.

[11] REN S Q ， HE K M ， GIRSHICK R ， et al. Faster R - CNN： towards real-time object detection with region pro-posal networks [J]. IEEE Transactions on Pattern Analysisand Machine Intelligence ， 2017 ， 39（6）：1137-1149.

[12] HE K M ， GKIOXARI G ， DOLL？R P ， et al. Mask R -CNN[C]∥2017 IEEE International C onference on C om- puter Vision （ICCV）. IEEE ， 2017：2980-2988.

[13] DELIGHT D T ， VELSWAMY K. Deep learning based object detection using mask RCNN[ C]∥20216th Inter- national C onference on C ommunication and Electronics Systems （ICCES）. IEEE ， 2021：1684-1690.

[14] LIU J Y ， YANG S ， FANG Y M ， et al. Structure-guided im-age inpainting using homography transformation [J]. IEEE Transactions on Multimedia ， 2018 ， 20（12）：3252-3265.

[15] YUNIARTI A ， ARIFIN A Z ， SUCIATI N . A 3D tem- plate-based point generation network for 3D reconstruction from single images [ J]. Applied Soft C omputing ， 2021 ， 111：107749.

[16] WANG N Y ， ZHANG Y D ， LI Z W ， et al. Pixel2Mesh：3D mesh model generation via image guided deformation [ J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence ， 2021 ， 43（10）：3600-3613.

[17] XU H B ， ZHOU Z P ， QIAO Y ， et al. Self-supervisedmulti-view stereo via effective co-segmentation and data- augmentation [C]∥Proceedings of the AAAI Conference on Artificial Intelligence ， 2021 ， 35（4）：3030-3038.

[18] WANG F ， GALLIANI S ， VOGEL C ， et al. Patchmatch- Net ： learned multi-view patchmatch stereo [ C]∥2021 IEEE/CVF C onference on C omputer Vision and Pattern Recognition （CVPR）. IEEE ， 2021.

[19] MOULO P ， MONASSE P ， MARLET R ， et al. Global fusion of relative motions for robust ， accurate and scalable structure from motion [ C]∥IEEE International C onfer- ence on C omputer Vision. IEEE ， 2013.

[20] SCH？NBERGER J L ， ZHENG E ， FRAHM J - M ， et al. Pixelwise view selection for unstructured multi-view stereo [C]∥Proceedings of the Computer Vision - ECCV 2016：14th European Conference. Springer ， 2016：501-518.

[21] SNAVELY N ， SEITZ S M ， SZELISKI R. Photo tourism ：exploring photo collections in 3D [J]. ACM Transactions on Graphics ， 2006 ， 25（3）：835-846.