针对遥感图像目标检测的改进YOLOv5s 算法

2024-04-01 06:41林子翔
电视技术 2024年1期
关键词:特征值尺度阶段

林子翔

(福州大学 先进制造学院,福建 泉州 362200)

0 引言

遥感技术是指通过航空、航天或人造卫星等机载平台上的传感器隔空远距离获取地面目标的电磁特性将其处理成遥感图像,并针对获取的遥感图像进行加工处理以及应用分析的综合性技术。针对遥感图像的诸多应用中,目标检测一直是遥感图像处理领域的一个基础性问题和热门研究方向,在资源勘探、海岸带调查、环境污染监测和交通堵塞等方面均有应用。与自然图像相比,遥感图像背景信息复杂、尺度变化大、小目标分布密集、容易受环境因素影响的特点为其检测带来诸多困难。

现有主流的通用目标检测方法通常分为一阶段方法和两阶段方法两类。两阶段方法追求准确性,一阶段方法追求速度。现有的二阶段目标检测算法主要有R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等,一阶段目标检测算法主要有YOLO[4]、YOLOv2[5]、YOLOv3[6]、YOLOv4[7]、YOLOv5、SSD[8]等。 经过多年的发展,一阶段算法的准确性并不比两阶段算法低,并且在速度上显示出巨大的领先优势。

尽管通用目标检测在自然图像上取得了很大的精度和效率提高,但是不同应用场景中的目标物体在尺寸和环境因素等方面存在着差异,这种差异性给特殊环境下的检测任务带来了很多难点。例如,虽然遥感图像的目标检测任务和自然场景图像的目标检测任务相似,但将通用目标检测方法迁移到遥感数据集上效果并不理想,主要是由于遥感图像的特点造成的。为此,本文提出一种更适合遥感图像的目标检测算法,以提高其检测精度。

1 方法

1.1 YOLOv5s 算法

YOLOv5 是一种基于anchor 的目标检测网络,优势在于其均值权重文件较小,训练时间短,推理速度较快,而且具有较高的精度和健壮性。在科研领域和工业界,YOLOv5 获得广泛的应用和认可。其网络结构主要由输入端、骨干神经网络、颈部网络以及输出端4 个部分组成。首先,在模型的输入端,要求输入图像的尺寸必须被缩放为640×640。考虑到如DOTA 数据集同张图像上目标分布不均问题,在数据预处理阶段采用了Mosaic 数据增强方法,通过随机选择4 张图片进行缩放和拼接进行改善。其次,用于特征提取的骨干神经网络采用了切片结构(Focus)、瓶颈层(C3)和空间金字塔池化等模块。再次,颈部网络借鉴了PANet[9]的思想,提取的特征能够双向地将浅层细节特征信息和深层高级语义信息进行融合。最后,输出端将融合不同尺度信息的特征图送入目标位置与类别预测层,获取最终的检测结果。

1.2 CDA-YOLOv5s 目标检测算法

在YOLOv5s 的基础上,本文提出了一种适用于遥感图像领域的CDA-YOLOv5s 目标检测算法,整体结构如图1 所示。为了改进遥感图像的目标检测准确性,本文采用了一些新的方法。首先,本文通过引入混淆鉴别注意力机制(Confusion-Distinguishable Attention,CDA)形成新的卷积模块CCDA,如图1 所示,增大目标与背景之间的差异、降低混淆度,同时提高对目标的关注度。通过融合不同尺度低混淆度特征的方式丰富不同尺度上的特征信息,以此减少漏检和误检的情况。其次,在原结构的颈部添加小目标检测层,将3 个尺度特征检测头增加到4 个,在160×160 特征图上增加新的检测头,以解决小目标分布紧密、漏检测的现象,从而提高算法的多尺度目标检测性能。

图1 改进YOLOv5s 的遥感目标检测算法网络结构

1.3 混淆鉴别注意力机制模型

遥感图像背景信息复杂且容易受环境因素影响,导致误检和漏检问题的出现[10]。本文在YOLOv5s 骨干网络的卷积块中加入CDA 机制,通过增强目标与背景之间的差异,给予目标更多的关注度,获取更具判别性的特征信息,以解决上述特点导致的问题,其结构如图2 所示。

图2 CDA 模块

具体步骤如下。首先将输入图像特征xin定义为(c,h,w),其中c表示当前图像的通道维度数,w表示图像的宽,h表示图像的高。其次,对xin通过降维方式将其变为(1,1,c×h×w)的一维特征数组,这里用xre表示。再次,对xre和其转置矩阵通过矩阵相乘的方式获取当前特征值与其他特征值之间的关联度信息,并且用关联度最高系数1 减去其所生成的二维的关联度矩阵,获得当前特征值与关联特征值彼此不相关的关联度残差图(c×h×w,c×h×w),并与一维特征数组xre进行余弦相似度计算获得保留目标特征所独有更具判别性的特征信息,其剔除关联度残差图中关联特征值与当前特征值不相关的特征信息的一维数组(1,1,c×h×w),将所获得具有区别混淆特征信息的一维数组进行升维。[11]这里采用increase(·)表示升维,将其升维成三维数组(c,h,w),最后以点乘的方式与输入图像特征xin进行特征融合,获得增强原输入图像鉴别易混淆目标特征信息的能力的xout特征图,数学表达式为

2 实验结果

2.1 实验设置

实验采用Linux 操作系统作为实验平台,采用Intel®Xeon(R) CPU E5-2678 v3 @ 2.50 GHz 的中央处理器(Central Processing Unit,CPU),2 个Nvidia GeForce GTX 2080Ti 的图形处理器(Graphics Processing Unit,GPU),具有64 GB 内存以及24 GB显存,编程语言采用Python 3.7,深度学习框架采用Pytorch-gpu1.8.0。训练阶段,本文采用随机梯度下降法优化器进行优化,将初始学习率设置为0.001,根据训练的收敛情况,微调学习策略和学习率。总的训练轮数为200 个epoch,学习率以0.005 衰减。在推理阶段,首先对待检测图像进行图像分割。其次,通过检测模型获取多尺度的预测分类和回归结果。再次,将分割后的图像进行拼接复原,并将结果统一在原图上。最后,进行非极大值抑制后处理,得到最终的检测结果。

2.2 数据集及评价指标

DOTA 数据集是一种专门用于遥感目标检测的数据集,包含2 806 张航空图像,涵盖了15 个类别[12]。这些图像的尺寸范围从800×800 到4 000×4 000,可以显示各种尺度和形状的物体。图像水平边界框的高度范围从10 像素到300 像素。本文在预处理阶段采用了图像分割的方法,以扩充数据集中的图像数量。同时,为了避免尺寸过大的图像在传入输入端时导致细节特征丢失,将分辨率较高的图像切分为尺度较小的图像[13]。对于分辨率过低的图像,采用填充0 的方式将其填充到640×640尺寸。最后,将扩充后的数据集按照8 ∶2 的比例划分为训练集和测试集。本实验通过平均精度(Average Precision,AP)对同类别目标在各个算法检测表现进行评估,通过平均精度均值(mean Average Precision,mAP)来对不同算法在DOTA 数据集上的整体表现进行评估。

2.3 实验结果及分析

实验结果如表1 所示不仅评估了本文所提出的方法在DOTA 数据集上的性能,还将其与6 个主流的模型进行了比较。由表1 可知,所提出的算法在棒球场、桥梁、小型车辆、大型车辆、篮球场、环形路及口岸这些与周围背景混淆度较高以及目标较小类别的检测性能高于主流的一阶段和二阶目标检测算法,说明所提算法在针对遥感目标存在的目标与背景相似度较高以及小目标分布紧密、漏检测问题得到改善。同时,改进的YOLOv5s 算法相对现有其他改进的TPH-YOLOv5、YOLOv5-MFF 具有更优的检测性能,mAP 比原始YOLOv5s 算法提升了4.1%。

表1 不同算法在DTOA 数据集的检测结果比较 单位:%

3 结语

针对目标检测在遥感图像领域存在的问题,本文提出了一种改进的YOLOv5s 算法,解决了小目标分布紧密、漏检的现象。通过实验对比,在DOTA数据集上,本文所提出的算法不仅在YOLOv5s 性能的基础上提升了4.1%,而且检测性能优于其他改进的YOLOv5s 算法,表明了本文算法在遥感目标检测上的可行性。

猜你喜欢
特征值尺度阶段
关于基础教育阶段实验教学的几点看法
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
财产的五大尺度和五重应对
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
宇宙的尺度
基于商奇异值分解的一类二次特征值反问题
大热的O2O三个阶段,你在哪?
两岸婚恋迈入全新阶段
9