基于循环神经网络的森林火灾识别研究*

2020-12-07 01:14曹毅超吴泽鹏周宇飞魏书精封晓强

林业与环境科学 2020年5期

曹毅超吴泽鹏周宇飞魏书精封晓强

（1.南京恩博科技有限公司，江苏南京 210007； 2.广东省森林培育与保护利用重点实验室/广东省林业科学研究院，广东广州 510520）

图1 林火视频监控系统捕获到的典型早期森林火灾图像Fig.1 Typical early forest fire image from forest fire video surveillance

森林火灾是一种突发性强、破坏性高、处置困难的自然灾害。近年来，受全球气候变化与人类活动的影响，森林防火行业面临着愈发严峻的考验，对森林火灾识别技术提出了新的需求与挑战[1-3]。基于林火视频监控系统的火灾监测方式以其报警时效性强、稳定可靠、信息灵活多样等独特的优势，在森林火灾检测中占据着重要的位置。林火视频监控系统涉及了计算机视觉、嵌入式、模式识别等技术[4-5]。近年来，随着大数据、机器学习、深度学习为代表的人工智能技术在语音识别、计算机视觉、推荐系统等领域得到成功应用，人工智能在算法、模型、架构等方面取得了巨大进展。以深度学习为代表的人工智能技术也为森林火灾识别提供了新的思路。作为林火视频监控系统核心构件的森林火灾识别算法近年来受到研究人员的广泛关注[6]。

云台相机非常适合大面积监控，它们可以被设置为自动巡检模式中，自动扫描识别预定的位置。本文提出了一种利用云台摄像机检测森林火灾的新方法。图1 显示了由林火视频监控相机捕获的典型森林火灾初期烟雾的图片。早期森林火灾由于树木遮挡和地形缘故，通常以烟雾为主要特征。因此，森林火灾监测系统的核心是对燃烧造成的烟雾进行识别。针对烟雾的识别，研究人员已经做了大量的尝试，研究重点在于描述烟雾的特征。

现有的烟雾探测方法可分为两类：基于图像的烟雾探测[7-9]和基于视频的烟雾探测[10-11]。一般的烟雾检测算法通常结合运动检测、特征提取和分类方法。基于图像的烟雾检测方法通常在帧间信息上是独立的，即不会利用上下文信息。基于视频的方法通常不仅分析单帧图像的空间特征，而且提取帧间的时间特征。在某些场景下，我们很难得到稳定可靠的连续图像序列，这时候基于单帧的检测方法是一种很好的选择。Tian 等人[7]最近提出用凸优化的方法对图像子块进行分类。Yuan 等人[12]提出了一种融合三种直方图特征和四种密度特征的双映射框架，将边缘方向直方图、边缘强度直方图和LBP 直方图、边缘强度分布密度、LBP 位密度、颜色密度和饱和度密度等特征结合起来进行烟雾检测。Yuan 等人[9],也提出了一种结合LBP 特征、KPCA 和GPR 的烟雾检测方法进一步以提高识别模型的鲁棒性。李巨虎等人[13]采用分块LBP 直方图特征结合LPQ 直方图直方图特征，来降低森林火灾识别的误报率。近年来，深度学习在图像分类和目标检测方面取得了巨大的成功，也有研究人员尝试使用深度归一化卷积神经网络（DNCNN）来实现特征的自动提取和分类[8]。然而，运动特征是烟火的本质特征之一。当人眼从视频中分辨烟雾时，动态特征往往被用作关键的参考信息。如果能够有效利用视频序列中的烟火动态特征信息，将有助于进一步提升模型精度。Dimitropoulos 等人[9]提出了一种用于多维动态纹理分析的高阶线性动力系统（H-LDS）描述方法。也有研究者将深度学习应用到森林烟火检测中。Lin 等人[11]提出了一种基于Faster RCNN[13]和3DCNN[15]的检测框架。然而，该算法因为计算量较大，实际应用的成本较高。

本文的研究重点在于候选序列的分类。主要创新点如下：本文提出一种用于森林火灾识别的深度学习序列框架；本文采用了基于块的检测方案，使用卷积神经对候选块提取空间特征，使用循环神经网络对序列提取动态特征；通过在大量实际监控视频数据集上的对比测试，证明了本文提出的方法取得了最好的识别精度和鲁棒性。

1 研究方法及流程

本文使用前景检测算法从视频中提取运动区域的序列,为了扩大烟雾的识别范围（有效地获取运动像素周围的参考信息）和定位，本文采用了基于块的检测方案。针对森林火灾烟雾识别中的候选图像序列分类问题，提出了一种基于循环神经网络的森林火灾识别方法。图2 展示了本文方法的流程图。

图2 识别方法流程Fig.2 Flow chart of the proposed method

本文所提出的识别模型框架如图3 所示，其包括静态特征提取网络和时序网络两部分，其中时序网络通过循环神经单元进行构建。其中空间特征提取网络依次提取单帧图像的空间特征，时序网络从时间域对空间特征进行融合，学习输入序列的动态特征，最终对输入序列做出分类。

1.1 空间特征提取网络

CNN 已经在多种计算机视觉任务中取得了优异的成绩。其中Inception 是常用的通用主干模型[16]。研究人员后续还提出了改进的Inception V2[16]和Inception V3[18]。本文中使用在ImageNet上预训练的Inception V3 作为主干网络，进行空间特征的提取。Inception V3 是一个精心设计的网络模型，其中将5×5 卷积分解为两个3×3 卷积运算，以提高计算速度；并且将N×N 卷积分解为1×N 和N×1 卷积的组合，将空间卷积分解为不对称卷积，进一步提高模型性能。在模型优化时使用了Batch-Normalization 和标签平滑等正则化方式。

本文中，我们将InceptionV3 模型中的avg_pool 层作为空间特征的输出层。该层的输出维度为2048 维，随后会将每帧图像提取得到的2048维空间特征输入到循环神经网络中提取动态特征。

1.2 时序网络的设计

循环神经网络是前向神经网络的一种扩展，其特点在于模型增加了隐含层的有向环结构，用于对序列数据进行时序建模。循环神经网络前向计算时，对于每个输入状态都会结合当前模型中的隐含状态进行输出，其当前时刻的状态是根据上一时刻的状态和当前时刻的输入来决定。从其结构特点可以看出，循环神经网络是处理这类序列数据最自然的网络结构。本文中，空间特征提取网络提取了高维抽象的空间特征，按时间顺序排列输入到循环神经网络中。

图3 基于循环神经网络的多帧识别模型Fig.3 Sequence recognition model based on recurrent neural network

图4 循环神经网络结构示意Fig.4 Structure of recurrent neural network

如图4 所示，左侧的循环神经网络相比一般的全连接神经网络，在隐含层上增加了有向环ahW的循环计算。其中黑色的块代表时间维度一个步长的延迟。每个步长的输入信号 xt结合上一时刻的隐含层状态 at，最终通过全连接层和softmax层得到分类结果。对于图4 所示的循环神经网络，按照时间顺序展开后，输入信号 xt是按照时间与隐含层状态 at和输出状态 yt一一对应。对模型评估时，可以逐个时间步的输出计算损失。

图5 循环神经单元的结构Fig.5 Structure of recurrent neural network unit

其中，(Wxh)N×K是连接K 个输入节点和N 个隐含节点的权重矩阵。(Wah)N×N是连接( t－ 1)时刻N 个隐含节点到t 时刻N 个隐含节点的权重矩阵。(Wah)N×N是循环神经网络中的关键步骤，保证了当前信息与之前状态的信息融合。（at）N×1是激活后的隐含层状态向量。（ot）L×1为输出节点的状态向量，经softmax 计算后转换为输出标签向量()L×1。本文研究的森林火灾识别是序列分类问题，因此最终类别数L 为2，对应发生火灾和不发生火灾的概率。

1.3 时序网络的训练方法

对于循环神经网络的参数优化，可由反向传播推广得到。模型对于不同的输入序列，会产生相应的预测概率，通过损失函数对输出进行评价后，由反向传播算法计算误差并对模型参数进行优化。与一般前向计算的神经网络区别在于，循环神经网络需要考虑时间维度的反向传播，因此该优化算法也被称为称为随时间反向传播(Back Propagation Through Time，BPTT)。对于图4 所示的网络结构，最终需要优化的参数有aoW 、ob 、ahW 、hb 和xhW 5 个参数矩阵。对于本文的分类问题，可以使用经典的交叉熵损失函数进行评估。与一般的分类任务相比，本文增加了时间维度，因此可以逐个时间点地统计损失函数：

2 对比实验设置

2.1 数据集

据本文调研，目前还没有公开的大规模森林火灾数据集进行模型训练和测试。我们建立了一个大规模的森林火灾烟雾视频数据集，采集了大量真实的早期森林火灾视频来创建我们的数据集，所有视频都是从1920×1080 的森林火灾监控系统中采集的。模型的输入是由VIBE[19]前景检测算法从原始视频中截取的299×299 大小的烟雾候选块序列。在林火视频监控系统中，对前景区域大于一定阈值的子块进行采样，本文中选择5FPS 的采样频率。序列样本图如图6 所示。

数据集中序列总数为2 000 个，其中含烟序列1 000 个，非烟序列1 000 个。每个序列的长度为20 帧，图像分辨率为299×299，每秒5 帧。为了进行训练和测试，数据集80%作为训练集，20%作为测试集。数据集的详细信息如表1 所示。

按照样本预测类别和真实类别的差异，可将样本分为真阳性(True Positive, TP)、假阳性(False Positive, FP)、真阴性(True Negative, TN)和假阴性(False Negative, FN)四类。具体分类如下：真阳性：正样本被正确判别为有烟火；

假阳性：负样本被错误判别为有烟火；

真阴性：负样本被正确判别为无烟火；

假阴性：正样本被错误判别为无烟火；

序列二分类模型性能可用真阳性率(True Positive Rate, TPR)，真阴性率(True Negative Rate, TNR)和准确率(Accuracy Rate, AR)几个指标进行评估。TPR 主要用于评估对于森林火灾的捕获率，TNR 主要用于评估对于正常非火灾样本的识别能力，AR 表示模型的综合识别能力。3 个评价指标的计算公式如下：

图6 林火识别任务中的序列样本Fig.6 Sequence samples in forest fire recognition task

表1 序列数据集构成Tab.1 Composition of sequence dataset

2.2 模型训练与优化

本文实验在Intel Core i5-6500 和NVIDIA GTX1080的工作站上进行。本文所提出的模型基于Keras 实现。在大多数文献中，研究人员通常是基于单帧图像计算模型精度。在我们的工作中，模型的识别精度是基于序列进行统计的，因为本文所提方法是针对序列图像进行识别。

本文所提出的识别模型包括静态特征提取网络和时序网络两部分。在第一阶段，我们使用Adam 算法对Inception V3 模型进行训练优化，使用0.000 01 的学习率和32 的batchsize。我们将Inception V3 模型最后的分类器修改为二分类的全连接层后，对预训练模型进行迁移学习。在第二个阶段，将avg_pool 层的输出作为每帧图像的空间特征输入到循环神经网络中进行训练。我们使用RMSprop 算法对时序网络部分进行训练优化，同样使用0.000 01 的学习率和32 的batchsize。

3 结果与分析

本节对比实验前，首先使用测试集挑选了最合适的参数，包括学习率、节点数等。为了验证本文模型的有效性，我们将本文的模型与多种方法进行了对比。其中包括单帧的Inception V3[18]深度学习方法，3DCNN[15]多帧深度学习方法和传统烟火识别方法[20]。

从表2 可知，我们提出的基于循环神经网络的识别方法实现了96.3%的识别精度，97.0%的正类识别率和95.5%的负类识别率。本文所提的方法在测试集上整体优于单帧深度模型、3DCNN和[20]中的方法。实验结果表明，通过循环神经网络提取动态特征后，相比Inception V3[18]模型识别精度提升了2.2 个百分点。算法在保证较高的烟雾捕获率同时，也能有效过滤非烟雾的图像序列。该实验结果验证了本文的设想，通过循环神经网络确实提高了卷积神经网络模型对于烟雾动态特征的识别能力。

4 结论与讨论

林火监控视频的场景复杂，图像中的干扰因素众多。传统的烟火识别算法通常对疑似的烟雾区域提取特定的特征后，对特征进行分类识别。基于规则的识别方法为手工挑选的特征选取阈值和规则，对目标进行判别；基于学习的方法则通过分类器对特征进行识别。烟雾作为一种随机的湍流运动现象，受林区天气、地形等因素影响，外观差异较大且存在一定的透明度，人工挑选的特征常常鉴别力不足，泛化能力较低。

近年来以卷积神经网络为代表的深度学习技术得到快速发展，本文尝试通过卷积神经网络对单帧局部图像进行特征提取。基于Inception V3 的深度学习模型，通过在ImageNet 数据集上的预训练，拥有比传统特征提取算法更鲁棒的特征提取能力。为了对算法模型进行训练与测试，本文建立了一个大规模的森林火灾烟雾视频数据集来对算法进行评估。

从单帧图像中识别烟火目标面临的另一个挑战是单帧图像缺乏烟火的运动信息，然而运动特征是烟火的本质特征之一。因此本文进一步探究了通过循环设计网络学习动态特征，设计了一种针对序列图像的森林火灾识别方法。识别模型包括空间特征提取网络和时序网络两个部分。其中以Inception V3 为主干网络用来对每帧疑似图像提取静态特征，以循环神经单元为基础构建的时序网络对静态特征融合与分析，学习序列图像中的动态特征。时序网络通过循环神经网络结构中的有向环设计，赋予了模型学习与表示时间序列的能力。通过循环神经网络提取烟火动态特征后，本文提出的多帧识别模型相比于Inception V3 的单帧识别模型，精度提升了2.2 个百分点。实验结果证明了本文模型设计的合理性。

表2 数据集上的测试结果Tab.2 Test results on dataset %

未来我们会对算法的特征提取和时序融合部分进一步展开研究，如使用空间和时间注意力机制进一步提升模型对于烟火目标的关注度。