融合信息化边界和多模态特征的室内空间布局估计

2019-05-30 00:21刘天亮陆泮宇戴修斌刘峰罗杰波

南京信息工程大学学报 2019年6期

刘天亮陆泮宇戴修斌刘峰罗杰波

摘要为感知室内空间布局，提出一种基于信息化边界和多模态特征的场景布局估计方法.首先，采用VGG-16全卷积神经网络预测蕴含空间布局先验的信息化边界图.其次，采用Canny边缘检测和投票策略估计水平和竖直方向消失点，从消失点等角度间隔引出射线细采样信息化边界能量高的区域.接着，采用VGG空间多尺度卷积神经网络估计几何深度和法向特征.然后，积分几何求和候选布局多边形中多模特征描述一元共生，候选布局的表面法向平滑和位置关系确定二元标记约束.最后，采用结构化支持向量机学习模型，最大布局候选得分以推理布局.实验结果表明，与经典方法相比，本估计方法可以有效改善布局的完整度.

关键词空间布局;卷积神经网络;场景理解;信息化边界

中图分类号TP391.41

文献标志码A

0 引言

估计室内场景的空域布局结构是计算视觉领域中场景理解的一项重要工作.图像理解是计算机视觉研究的最终愿景之一，能有效帮助和提高计算机分析和认知复杂多变的室内外场景，空间布局估计是近年研究热点[1-3].估计室内场景的空间布局，是曼哈顿模型假设下根据房间结构划分室内场景并对应左墙、中墙、右墙、天花板和地面这5个空间面，这能为深度恢复、虚拟现实、智能家居、移动机器人导航等应用提供有效空间结构信息[1-2，4].

室内空间布局通常存在复杂室内场景中容易出现大物体（如家具）遮挡地面和各个墙面、堆积小尺寸目标物体或杂物的干扰、不同相机拍摄角度引起个别多边形面有缺失等现象.而室内布局估计方法在模型设计和特征选取上各有所侧重，且大致分为2类.第1类是分步分治最优选取场景布局候选并结构化预测，第2类是卷积神经网络端到端学习的场景密集几何语义标注.第1类通常利用布局多边形区域面剖分而分步骤提取、拼接视觉感知特征做结构化预测.文献[5]采用3D盒模型结构参数化房间布局并推理布局结构.传统的特征主要分为线结构特征和区域特征.文献[6]在曼哈顿世界假设下利用消失点估计生成布局候选，并结合直线段和蕴含目标结构相关的几何上下文等特征描述布局候选以优化估计.消失点估计法[7-8]常常利用检测到图像中所有长直线段并投票计算得分，根据得分高低依次赋值给相应消失点.文献[9]进而融入方向图特征提高布局估计精度，而文献[10]则抽取空间布局线索深挖直线段的连接属性.文献[11]将场景深度信息嵌入布局建模以增强特征感知力.文献[12]将室内的家具和装饰品等视为隐变量，采用由消失点引出参数化射线的夹角表征布局候选，并基于4个离散随机变量预测布局.文献[13]拆分目标函数并增加约束，以更少时间求解到更确切结果.

分治策略动机清晰，其子问题或子步骤变得简单、可控且更易解决，但子问题最优未必是全局的最优，每个子步骤最优也不意味全过程看是最优.第2类从全卷积网络模型端到端感知标注整幅场景语义結构.文献[14]仅利用外观图像给出一种规避码本的室内功能区表示与建模，以实现家庭服务机器人对室内服务环境的分类.随着近来卷积神经网络兴盛，故第2类方法从全卷积网络模型感知整幅图像的全局特征.文献[15]利用全卷积神经网络（Fully Convolution Networks，

FCNs）[16]提取房间各种布局边界特征并信息化边界（Informative Edges，IE）的参数有效学习.文献[17]给出基于FCNs模型端到端学习直接高质量标注布局多边形区域语义标签，但都要训练数据集足够大且训练周期长.相比分治策略，数据驱动全局优化的端到端学习具有协同增效优势，可能获得全局上更优的解，但整合结构化先验不够灵活.

于是，针对家具和饰品等杂乱干扰布局候选、多模态一元特征以及二元关系利用等问题，本文研究基于信息化边界诱导布局候选和区域多模态特征有机融合的室内场景布局估计法.

1 室内场景布局估计整体框架

图1给出了2部分组成的本文方法流程.第1部分利用信息化边界由粗到精布局候选项生成分3步：利用全卷积神经网络计算室内场景的信息边界能量;从边缘检测估计的消失点等角度间距采样粗划分图像区域;从水平和竖直方向分别选取已划分的信息化边界能量较高的区域并细采样得到布局候选.第2部分融合区域级多模态异构特征建模场景空间布局并学习推理.首先，利用VGG空间多尺度卷积神经网络估计场景表面的几何法向量和深度特征.然后，采用消失射线最大夹角参数来3D盒式场景布局的结构化建模.积分几何法累积候选布局多边形中线组特征和几何上下文等多模特征来描述布局候选的一元呈现;布局表面法向平滑和位置关系确定着二元约束关系.最后，采用结构化支持向量机学习模型参数;排序场景布局候选得分，选得分最高者为最终场景布局.

2 信息性边界诱导场景布局候选生成

2.1 VGG-16全卷积神经网络感知场景信息化边界

受有效解决像素标注问题的全卷积网络FCNs[16]启发，本文利用反卷积层上采样粗糙且抽象输出密集像素级标注，联合训练FCNs网络完成2个任务：生成各种房间边界的信息化边界和标注目标布局的几何上下文标签.采用Caffe框架学习VGG-16结构的FCNs网络，用32像素预测步长的FCNs训练NYUD v2 RGBD数据集中40个类别的室内语义分割[15].文献[15]原始FCNs网络有2个输入流：RGB图像和深度特征.本文在预训练模型基础上舍弃深度特征，仅用RGB层初始FCNs网络.然后，微调网络的学习率和高动量分别为10-4和0.99，新加入的最后一个卷积和反卷积层的学习率设为10-3.共享FCNs除反卷积层外的所有层联合训练.最后反卷积层中输出产生各自对应类别的不同softmax概率图.训练时，信息化边界标签预测和几何上下文标签预测这2个交叉熵分类损失的总和构成该FCNs网络总损失.

4 实验结果与分析

采用Hedau与LSUN室内场景数据集主观与客观评测.Hedau数据集[5]包括314幅含有多种室内场景且稠密标注的彩色图像及对应的布局图像（200组训练图像对和114组测试图像对），包含5种结构化语义类别（地面、左墙、中墙、右墙、天花板）.LSUN数据集包含5 394幅拍摄于多种室内场景且稠密标注的彩色图像及对应的布局图像（4 000组训练图像对、394组验证图像对以及1 000幅测试图像），提供结构化布局边缘线交叉的基准角点.

4.1 主观评估

图4和图5分别给出本文方法在Hedau数据集上不同模态特征组合的估计结果和LSUN数据集上与Hedau方案布局的估计结果.实验方案包括4种模态特征（直线段组成员特征（LM）、几何上下文特征（GC）、深度特征（DP）、法向量特征（NV））和二元约束关系（PW）.由图4可知，LM+GC+DP特征融合估计的布局图4d明显优于LM+GC特征融合估计的图4c.其中图4Ⅳ的右墙（蓝色标注部分）的墙面有凸出三角形区域和书柜等干扰，引入深度特征后识别右墙区域的效果明显.其原因是深度特征能刻画场景中空间几何的景深关系且不受空间中物体遮挡的影响.而本文方法（LM+GC+DP+NV+PW）融合4种模态特征并结合多边形之间结构位置约束关系的图4e效果，也明显优于LM+GC+DP方法的图4d.图4Ⅲ中左墙和前墙均为白色且不易区分，同时有椅子等干扰，融合法向量特征并且考虑多边形之间位置结构关系后，场景布局边界预测更加准确.其原因是法向量特征决定着图像多边形区域所在的平面方向且多边形之间的二元位置关系约束着多边形空间位置结构的可能组合.

图5整体呈现了本文方法和文献[5]方法的布局估计结果的视觉效果.结合图5d和图5c综合表现可知，本文方法在室内场景布局估计的视觉表现上有明显优势.其原因是文献[5]仅从消失点引出消失射线生成布局候选，同时只采用简单的线组成员LM和几何上下文GC特征;而本文结合信息性边缘由粗到精优化布局候选，同时综合利用多模态特征融合和多边形二元项约束关系来实现布局估计推理，其更鲁棒和判别力更强.

4.2 客观评估

采用像素误差率（Pixel Error，PE）和角点误差率（Corner Error，CE）来客观评价实验效果.前者由布局估计错误标注的所有像素数与图像中所有像素数的比值确定;后者由布局估计的角点与基准角点之间的距离与图像对角线长度的比值确定.二者数值越小，实验效果均越好.表3给出了本文布局估计方法在Hedau数据集上多模态特征组合下的像素点误差和测试耗时情况.其测试耗时是相同测试配置环境下各算法未做整体优化的平均运行时间.由表3可知，引入深度特征的LM+GC+DP方法的像素点误差相较LM+GC法有显著地降低（降了0.66个百分点）.这说明深度特征蕴含场景的几何空间关系，能更好表征场景布局的区域表面结构，同时降低遮挡物对布局估计的影响.相较于LM+GC+DP法，依次引入法向量NV特征和多边形二元约束PW的LM+GC+DP+NV法和LM+GC+DP+NV+PW法的像素点误差分别降低了0.25和0.43个百分点，其性能提升空间有限;其主要原因是本文利用信息性边缘由粗到精生成布局候选已经在某种程度上做过布局筛选，使其对相应推理结果影响不明显.由表3中测试耗时可知，与其他方法相比，本文方法虽然耗时相对较高，但在合理范围且相差不大.本文方法显著提升了像素标注的误差性能.

表4给出本文方法相较于其他传统经典方法在Hedau和LSUN数据集上像素点误差和角点误差的对比评估.鉴于文献[13，19]方案出现在LSUN数据集之前，本文未列出其在LSUN数据集上实验结果.文献[5]方法直接由消失点产生室内场景布局候选并采用线组成员特征估计场景布局;文献[13]在Hedau框架基础上增加方向图特征估计最终场景布局;文献[15]利用深度学习预测信息边界特征，将信息边界特征和几何上下文特征融合产生场景布局估計.由表4可知，本文方法采用布局信息性边缘优化布局候选并利用几何上下文、深度、法向量等多种模态特征构建模型以约束估计布局，在像素点误差和角点误差方面均有显著提高.相关方法在LSUN数据集上像素点误差PE明显高于其在Hedau数据集的相应PE，其原因主要是LSUN数据集中室内场景较为杂乱，比如存在易干扰的广告海报图等;图5Ⅲ右墙镂空且后面还有一个空间，易导致布局估计效果欠佳.LSUN数据集的角点误差CE看，利用信息性边缘由粗到精生成布局候选，角点精度随布局候选精度的提高而提高.

5 结语

本文提出了一种基于信息化边界和多模态异构特征融合与二元平滑空间位置约束的室内场景布局估计方法.相比于其他经典方法，本文方法能够估计到的布局整体视觉效果更佳，空间布局估计准确度更高.

参考文献

References

[1]姚拓中，左文辉，宋加涛，等.结合物体先验和空域约束的室内空域布局推理[J].自动化学报，2017，43（8）：1402-1411

YAO Tuozhong，ZUO Wenhui，SONG Jiatao，et al.Estimating spatial layout of cluttered rooms by using object prior and spatial constraints[J].Acta Automatica Sinica，2017，43（8）：1402-1411

[2]庄严，卢希彬，李云辉，等.移动机器人基于三维激光测距的室内场景认知[J].自动化学报，2011，37（10）：1232-1240

ZHUANG Yan，LU Xibin，LI Yunhui，et al.Mobile robot indoor scene cognition using 3D laser scanning[J].Acta Automatica Sinica，2011，37（10）：1232-1240

[3]刘天亮，冯希龙，顾雁秋，等.一种由粗至精的RGB-D室内场景语义分割方法[J].东南大学学报（自然科学版），2016，46（4）：681-687

LIU Tianliang，FENG Xilong，GU Yanqiu，et al.Coarse-to-fine semantic parsing method for RGB-D indoor scenes[J].Journal of Southeast University （Natural Science Edition），2016，46（4）：681-687

[4]Nedovic V，Smeulders A W M，Redert A，et al.Depth information by stage classification[C]∥IEEE 11th International Conference on Computer Vision，2007：1-8

[5]Hedau V，Hoiem D，Forsyth D.Recovering the spatial layout of cluttered rooms[C]∥IEEE 12th International Conference on Computer Vision，2009：1849-1856

[6]Hoiem D，Efros A A，Hebert M.Geometric context from a single image[C]∥Tenth IEEE International Conference on Computer Vision （ICCV05），2005：654-661

[7]许宏科，秦严严，陈会茹.一种基于改进Canny的边缘检测算法[J].紅外技术，2014，36（3）：210-214

XU Hongke，QIN Yanyan，CHEN Huiru.An improved algorithm for edge detection based on Canny[J].Infrared Technology，2014，36（3）：210-214

[8]梅雪，夏良正，李久贤，等.一种三维场景的消失点检测算法[J].信号处理，2007，23（6）：924-926.

MEI Xue，XIA Liangzheng，LI Jiuxian，et al.A vanishing point detection algorithm for 3D scene[J].Signal Processing，2007，23（6）：924-926

[9]Lee D C，Hebert M，Kanade T.Geometric reasoning for single image structure recovery[C]∥IEEE Conference on Computer Vision and Pattern Recognition，2009：2136-2143

[10]Ramalingam S，Pillai J K，Jain A，et al.Manhattan junction catalogue for spatial reasoning of indoor scenes[C]∥IEEE Conference on Computer Vision and Pattern Recognition，2013：3065-3072

[11]Zhang J，Kan C，Schwing A G，et al.Estimating the 3D layout of indoor scenes and its clutter from depth sensors[C]∥IEEE International Conference on Computer Vision，2013：1273-1280

[12]Wang H Y，Gould S，Roller D.Discriminative learning with latent variables for cluttered indoor scene understanding[J].Communications of the ACM，2013，56（4）：92-99

[13]Schwing A G，Hazan T，Pollefeys M，et al.Efficient structured prediction for 3D indoor scene understanding[C]∥IEEE Conference on Computer Vision and Pattern Recognition，2012：2815-2822

[14]吴培良，李亚南，杨芳，等.一种基于CLM的服务机器人室内功能区分类方法[J].机器人，2018，40（2）：188-194

WU Peiliang，LI Yanan，YANG Fang，et al.A CLM-based method of indoor affordance areas classification for service robots[J].Robot，2018，40（2）：188-194

[15]Mallya A，Lazebnik S.Learning informative edge maps for indoor scene layout prediction[C]∥IEEE International Conference on Computer Vision （ICCV），2015：936-944

[16]Long J，Shelhamer E，Darrell T.Fully convolutional networks for semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2015：3431-3440

[17]Dasgupta S，Fang K，Chen K，et al.DeLay：robust spatial layout estimation for cluttered indoor scenes[C]∥IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2016：616-624

[18]Eigen D，Fergus R.Predicting depth，surface normals and semantic labels with a common multi-scale convolutional architecture[C]∥IEEE International Conference on Computer Vision （ICCV），2015：2650-2658

[19]Lee D C，Gupta A，Hebert M，et al.Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces [C]∥24th Annual Conference on Neural Information Processing Systems，2010：1288-1296

[20]Tsochantaridis I，Joachims T，Hofmann T，et al.Large margin methods for structured and interdependent output variables[J].Journal of Machine Learning Research，2005，6（2）：1453-1484

Abstract To perceive indoor spatial layout，we present a scene layout estimation method based on informative edges and multi-modality features.First，the VGG-16 full convolutional neural network is applied to predict informative edge map with the prior of spatial layout.Then，Canny edge detection and voting strategy are utilized to estimate the horizontal and vertical vanishing points，while the rays led at equal intervals from the given vanishing points finely resample the divided regions with high informative edge energies for the layout candidates.Next，the spatial multi-scaled VGG-16-based convolutional neural network is adopted to estimate the related geometric depth and normal vectors on the scene surfaces.And then，integral geometry is applied to accumulate the multi-model regional features as unary occurrence potential in the polygons of candidate layouts，and the pairwise label constrains are reflected by surface normal smooth and the location relationship of candidate layouts.Finally，the mode parameters can be learned by structural SVM learning，and the scene layout can be inferred by maximizing the related scores of the layout candidates.Experimental results show that，compared with traditional methods，this proposed estimation method can effectively improve the completeness of the resulting spatial layouts.

Key words spatial layout;convolutional neural network;scene understanding;informative edge