基于轻量级多尺度注意力U-Net的遥感图像飞机检测方法

张善文, 齐国红, 徐新华

弹箭与制导学报 ›› 2022, Vol. 42 ›› Issue (5) : 108-112.

PDF(3059 KB)
文章检索
PDF(3059 KB)
弹箭与制导学报 ›› 2022, Vol. 42 ›› Issue (5) : 108-112. DOI: 10.15892/j.cnki.djzdxb.2022.05.020

基于轻量级多尺度注意力U-Net的遥感图像飞机检测方法

作者信息 +

Lightweight Multi-scale Attention U-Net for Aircraft Detection in Remote Sensing Image

Author information +
文章历史 +

摘要

针对传统U-Net对于目标小、分辨率低和背景复杂的遥感图像的飞机检测率低问题,提出一种轻量级多尺度注意力U-Net模型(LWMSAU-Net)。该模型由相互对应的编码子网络和解码子网络组成,编码子网络采用多尺度模块,在编码和对应的解码模块之间使用残差跳跃连接模块,将图像的浅层特征与深层特征融合,通过增加浅层特征的权重,更多地保留飞机图像的边缘和细微结构特征,最后的编码模块采用残差注意力连接模块,连接编码子网络和解码子网络,加强对小尺度飞机目标的检测。解码路径在每个模块反褶积将特征图的大小乘以2,使特征图的数量减半,并与对称编码路径的特征图相结合。与U-Net相比,LWMSAU-Net的层数减少1,在遥感飞机图像数据集上进行实验,结果表明该方法能够有效检测遥感图像飞机,准确率可达94.72%。

Abstract

As for the low aircraft detection rate by the traditional U-Net due to small aircraft targets, low resolution and complex background, a lightweight multi-scale attention U-Net model (LWMSAU-Net) is proposed. The model consists of encoding and decoding subnetworks corresponding to each other. The encoding subnetwork adopts multi-scale modules, and the residual jump connection module is used between the encoding and the corresponding decoding module to fuse the shallow features and deep features of the image, the more of the edge and fine structural features of the aircraft image is preserved by increasing the weight of shallow features and preserving. The last encoding module adopts residual attention connection module to connect encoding subnetwork and decoding subnetwork to strengthen the detection of small scale aircraft targets. The decoding path consists of 4 modules, where each deconvolution multiplies the size of the feature graph by 2, halving the number of feature graphs, and then combines with the feature graph of the symmetric encoding path. Compared with U-Net, the number of layers of LWMSAU-Net is decreased by 1. Experiments on remote sensing aircraft image dataset shows that the proposed method can effectively detect aircraft targets in remote sensing images with an accuracy of 94.72%.

关键词

遥感图像 / 飞机检测 / U-Net / 注意力机制 / 轻量级多尺度注意力U-Net模型

Key words

remote sensing image / aircraft detection / U-Net / attention mechanism / lightweight multi-scale attention U-Net

引用本文

导出引用
张善文, 齐国红, 徐新华. 基于轻量级多尺度注意力U-Net的遥感图像飞机检测方法[J]. 弹箭与制导学报, 2022, 42(5): 108-112 https://doi.org/10.15892/j.cnki.djzdxb.2022.05.020
ZHANG Shanwen, QI Guohong, XU Xinhua. Lightweight Multi-scale Attention U-Net for Aircraft Detection in Remote Sensing Image[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2022, 42(5): 108-112 https://doi.org/10.15892/j.cnki.djzdxb.2022.05.020
中图分类号: TN975 (通信电子对抗)   

0 引言

基于遥感图像(RSI)的飞机自动检测在动态监测和军事监视中具有很高的应用价值,但由于飞机图像在RSI中所占比例相对较小,且飞机图像的个数、大小、姿态、阴影、光照和背景等多变,使得遥感图像飞机检测成为一项具有挑战性的课题。
随着遥感技术、成像平台、大数据等技术的不断发展,涌现出了一些基于卷积神经网络(CNN)和全卷积神经网络(FCN)的RSI飞机检测方法,且取得了显著检测准确率。Zhang等[1]构建了一种基于CNN的有效飞机检测框架,用于检测超大复杂场景中的多尺度目标,能够快速、准确地生成数量适中的目标候选对象,用于检测多尺度飞机。Zhong等[2]利用数据增强、迁移学习、DCNN和有限的训练样本,提出了一种端到端的飞机检测方法。Li等[3]提出了基于改进卷积神经网络的RSI飞机检测,实现了飞机的自动识别与定位。Yan等[4]设计了一种基于中心建议区域和不变特征的飞机检测方法。从RSI中提取建议区域,然后提取不变性特征训练集成学习分类器,利用训练好的分类器从RSI中检测识别飞机。Fu等[5]提出了一种特征融合算法,用于多尺度飞机检测特征表示,取得了较高的检测准确率。兰旭婷等[6]提出了一种基于注意力与特征融合的RSI飞机目标检测方法。该方法结合了注意力模块和特征融合模块,对RSI飞机检测,取得了较高的检测精度和速度。
U-Net是一种比较简单的、广泛应用的图像语义分割模型,在图像分割方面表现出了显著的性能[7]。张翠军等[8]提出了一种基于改进U-Net的RSI建筑物分割方法,对建筑物进行检测。杨丹等[9]在U-Net中融合Inception模块,提出了一种多尺度卷积核U-Net(MSU-Net)并应用于视网膜血管分割任务,在视网膜血管分割中取得了较高的准确率。Tarasiewicz等[10]提出了一个轻量级U-Net(LWU-Net)并应用于多模态磁共振脑肿瘤图像分割中,得到了精确的脑肿瘤轮廓。Xiong等[11]针对工业部件缺陷图像的背景噪声大、环境不可预测、缺陷形状大小不一等因素导致缺陷检测准确率降低问题,提出了一种多尺度特征融合注意力U-Net (AU-Net),该模型将注意力U-Net与多尺度特征融合模块相结合,有效检测噪声低质量图像中的缺陷。Yuan等[12]提出了一种改进的AU-Net,能够就深度丰富的语义信息和浅层细节信息相融合,进行大尺寸差异的磁共振血管造影动脉瘤图像进行自适应精确分割。
针对RSI飞机检测难题,在MSU-Net,LWU-Net和AU-Net启发下,构建一种轻量级多尺度注意力U-Net (LWMSAU-Net),并应用于RSI飞机检测任务。

1 轻量级多尺度注意力U-Net

U-Net是一种全卷积U型对称网络,由相互对称的编码过程、解码过程和连接过程组成,其基本架构如图1(a)所示。传统U-Net对于每个邻域需要运行一次,且对于邻域重叠部分需要重复运算,其运算效率较低。针对RSI和包含的飞机图像的复杂性,在MSU-Net,LWU-Net和AU-Net的基础上,利用多尺度卷积、模型轻量化、残差连接、注意力机制等优点,从U-Net的模型参数个数、编码、解码和连接方式多个角度,对模型进行改进,构建一个轻量级多尺度注意力U-Net (LWMSAU-Net),其基本架构如图1(b)所示。残差连接能够避免提到消失问题,在U-Net编码和解码部分,提高网络的性能。得到编码模块和解码模块如图1(c)图1(d)所示。
图1 U-Net和LWMSAU-Net结构

Full size|PPT slide

图1(b)中,LWMSAU-Net的编码过程有4个模块,每个模块包含3个卷积和1个最大池化操作,每次池化下采样后,特征图的个数乘以2,其维数变小;解码过程有4个模块,在每个模块操作前,反褶积将特征图的维数乘以2,特征图的数量减半,再与左边对称的编码过程的特征图相结合。由于编码特征图与解码特征图的维数不同,所以需要通过裁剪操作使得对应的特征图的维数相同,便于特征图融合;连接过程采用跳跃连接方式,将U-Net得到的浅层和深层的特征进行融合;最后采用SoftMax分类器进行像素级分类。
模块中由3种不同尺度特征的卷积核进行特征提取:1×1、3×3和5×5,并在卷积后使用3×3最大池化层进行眼底视网膜血管特征信息融合。经过池化层融合后的特征信息输入到1×1卷积层进行尺度压缩,解决了不同尺度信息提取过程中网络参数和特征量冗余的问题。
在编码和解码部分使用一个残差注意力门连接加强特征重用,将编码中提取的低级特征和解码中高级语义特征进行整合,提高模型的检测性能,从而得到更多不同尺度飞机图像的细节,其结构如图1(e)所示。
底层卷积特征能够保留飞机的细节信息,为了最大限度地提取不同尺度大小的飞机图像特征,将多尺度卷积模块Inception引入U-Net编码部分,如图1(f)所示。其主要过程为:将多个不同的浅层和深层网络特征级联,并对不同的卷积层赋予不同的权重,通过模型训练自动学习残差注意力模块中的参数,使得残差注意力模块能够同时关注多个编码得到的特征,使模型更好地关注飞机的局部特征。在每一个注意力门结构中,从解码器的前一层提取的特征被用作门控特征,由此调整并行的残差输出xi的权重;再将经过权重调整后的xiG进行拼接整合;注意力门函数可表示为:
αi=fatt(αi,G;θatt)
(1)
式中:fatt通过一组参数θatt定义xiG的运算。运算包含使用通道方向1×1卷积的线性变换以及利用激活函数Relu和Sigmoid的非线性变换。注意力门操作不改变输入xi的维数,所以可以灵活地用于各种U-Net结构中。
模型性能可以通过计算检测的飞机图像与标注的飞机图像之间的差异估计,利用交叉熵值来评定网络的训练效果,当交叉熵值越小,表明网络的训练效果越好。在LWMSAU-Net的训练过程中,计算标注的飞机图像与检测的飞机图像的每个像素点的交叉熵,然后取平均值,再利用平均像素交叉熵损失函数评估评定LWMSAU-Net的训练效果,平均交叉熵损失可表示为:
l(p,q)= N-Xp(x)lgq(x)
(2)
式中:p(x)和q(x)分别为标注图像和检测图像的像素分类向量;N为图像的总像素数;X为输入图像的特征向量;x为输入图像每个像素的特征向量。
得到损失值后,再利用反向传播算法将损失值回传到网络的每个卷积层,对卷积层的权重参数进行更新,进行多次迭代直到损失值稳定时训练结束。

2 实验与分析

采用公开RSI数据集EORSSD(https://github.com/rmcong/EORSSD-dataset)中的包含飞机图像的RSI子集进行实验,验证所提出的飞机检测方法LWMSAU-Net。该子集包含258幅飞机RSI图像,不同图像包含一个或多个小尺寸、不同位置和角度、不同分辨率和背景的飞机。由于原始飞机RSI的分辨率不同,从973像素×760像素到242像素×239像素,为了模型方便训练,将每张图像的大小调整为128像素×128像素。利用图像数据集扩展方法将每幅图像扩展为10幅图像,得到共包含2 580幅飞机RSI数据集。在扩展数据集中每幅图像都包含飞机,以保证所提出检测方法可对飞机自动检测。在该数据集上按照5折交差验证法进行实验,并与U-Net,MSU-Net,LWU-Net和AU-Net方法进行比较。迭代次数设为3 000,学习率为0.01,批大小为32,Adam为模型优化算法。所有实验的软件配置为PyCharm,Keras,TensorFlow,Python;硬件配置为64位操作系统Win10,Intel(R)CoreTM i7-9700KCPU@3.6 GHz,64.0 GB内存,NVIDIA GeForce GTX1070Ti。
检测准确率表示正确分类的飞机像素占真实飞机像素的比值P:
P= TPTP+FP
(3)
式中:TP为经过网络得到的飞机检测结果与原始飞机区域的重合部分;FP为分割结果中不属于飞机区域的部分。
图2为基于LWMSAU-Net和经典U-Net的飞机检测方法在训练集上关于迭代次数的损失值。
图2 LWMSAU-Net和经典U-Net的损失值

Full size|PPT slide

图2看出,随着迭代次数增加,2个模型的损失值在1 000次之前下降很快,当次数不断增加时损失值趋于稳定;经典U-Net的损失值变化曲线波动较大;当迭代次数大于2 500次时两个模型都基本收敛,表明模型达到了较好的训练效果。为了公平起见,下面实验中,选择所有训练好的模型都为迭代次数为3 000次时的模型,由此在测试集上进行飞机检测。
图3(c)~图3(g)为基于U-Net,MSU-Net,LWU-Net,AU-Net和LWMSAU-Net的检测方法对一幅简单RSI的飞机分割图像。为了充分展现U-Net的优势,将LWMSAU-Net与传统的3种图像分割算法进行比较: K-均值聚类算法(KMC)、改进的均值聚类算法(MKMC)和模糊C-均值聚类算法 (FCM)分割结果如图3(h)~图3(j)所示。
图3 基于飞机分割结果

Full size|PPT slide

图3可以看出:5种U-Net及其改进模型都能实现飞机图像的准确定位和完整分割;LWMSAU-Net的分割效果最好,增强了对细节部分的分割效果,分割图像最接近标注图像;U-Net的分割效果比较差,飞机轮廓模糊,与标注图像差异最大;MSU-Net和AU-Net的分割效果优于LWU-Net;MSU-Net的分割效果优于AU-Net。基于U-Net系列的图像分割方法明显优于传统的图像分割方法的主要原因是:5种基于U-Net类的图像分割方法能够将多层编码部分的低级特征和对应的解码中高级语义特征进行充分融合,再通过分类器Softmax进行像素级分类,可得到完整的飞机图像。
为了表明所提出模型LWMSAU-Net的鲁棒性,分别使用5种U-Net类方法对5幅复杂RSI进行鲁棒性对比实验。复杂图像指RSI的背景且包含的飞机图像模糊、飞机较小,如图4(a)所示,分割效果如图4(b)~图4(f)所示。
图4 由5种U-Net类方法分割的飞机图像

Full size|PPT slide

图4可以看出:5种U-Net类方法均能够将5幅复杂背景下多个模糊的飞机图像分割出来,但LWMSAU-Net几乎不受环境的影响,稳定性较高,能够有效的分割出飞机区域,分割的飞机图像与标注图像最相似;U-Net的分割结果最差,能够定位飞机,但分割的飞机图像的边缘比较模糊;LWU-Net丢失小目标,不能对较小飞机图像进行分割;MSU-Net和AU-Net能够分割出完整的飞机,但分割的飞机图像有明显的噪声。
在2 580幅的扩展数据集上利用5折交差验证方法进行实验。表1为5种U-Net类方法的飞机分割结果。
表1 5种U-Net类方法的飞机检测的平均准确率和模型的训练时间
参数 U-Net MSU-
Net
LWU-
Net
AU-Net LWMSAU-
Net
准确率/% 84.25 92.13 89.35 91.54 94.22
训练时间/h 4.46 3.74 1.79 2.44 1.48
图3图4可以看出:5种U-Net类方法明显比3种传统方法好。由表1可以看出:提出的LWMSAU-Net优于其他4种U-Net类方法,准确率达94.22%,其次是MSU-Net,其检测性能较好,准确率为92.13%,主要原因是MSU-Net 和LWMSAU-Net均具有多尺度特征提取能力,能够同时对不同尺度的飞机图像进行分割;SCNN和M-FCN不适合提取多尺度飞机检测;LWU-Net和LWMSAU-Net的训练时间较少,其原因是他们的模型为轻量级、层数少、训练参数少;LWMSAU-Net的训练时间最少的原因是,它利用了多尺度卷积模块和残差连接模块,加速了模型收敛。

3 结论

针对传统的飞机检测方法对背景复杂且包含不同尺度飞机的检测效果不理想问题,构建了一种轻量级多尺度注意力U-Net模型(LWMSAU-Net)。该模型充分利用了轻量级、多尺度卷积、残差连接、注意力和U-Net的优势,通过多尺度U-Net提取不同尺度特征图,再通过残差级联,将编码特征与对应的解码特征相融合,从而增加飞机检测的细节信息,提高对较小飞机的检测准确率。在公开的飞机遥感图像集上进行实验验证,结果表明:LWMSAU-Net能够有效分割遥感图像的飞机,准确率为94.22%。未来工作为对遥感图像的密集飞机目标检测进行深入研究,设计参数优化方案,进一步提升本模型的鲁棒性和泛化能力。

参考文献

[1]
ZHANG Y, FU K, SUN H, et al. A multi-model ensemble method based on convolutional neural networks for aircraft detection in large remote sensing images[J]. Remote Sensing Letters, 2018, 9(1): 11-20.
[2]
ZHONG C, TING Z, CHAO O. End-to-end airplane detection using transfer learning in remote sensing images[J]. Remote Sensing, 2018, 10(1): 139.
[3]
LI Y, ZHANG S, ZHAO J, et al. Aircraft detection in remote sensing images based on deep convolutional neural network[J]. IOP Conference Series: Earth and Environmental Science, 2019, 252(5): 1-7.
[4]
YAN H. Aircraft detection in remote sensing images using centre-based proposal regions and invariant features[J]. Remote Sensing Letters, 2020, 11(8): 787-796.
[5]
FU K, CHANG Z, ZHANG Y, et al. Rotation-aware and multi-scale convolutional neural network for object detection in remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 161(5): 294-308.
[6]
兰旭婷, 郭中华, 李昌昊. 基于注意力与特征融合的光学遥感图像飞机目标检测[J]. 液晶与显示, 2021, 36(11):1506-1515.
[7]
周涛, 董雅丽, 霍兵强, 等. U-Net网络医学图像分割应用综述[J]. 中国图象图形学报, 2021, 26(9):2058-2077.
[8]
张翠军, 安冉, 马丽. 改进U-Net的遥感图像中建筑物变化检测[J]. 计算机工程与应用, 2021, 57(3):239-246.
提出了一种改进U-Net的遥感图像中建筑物变化检测方法,将变化检测问题转化为像素级二分类问题,利用U-Net模型对图像进行分类,把图像中的每个像素划分为变化类或非变化类,并根据变化类的像素得到建筑物的变化检测结果图。针对U-Net模型进行遥感图像中建筑物变化检测时,在训练中容易出现过拟合的现象,提出用非对称卷积块代替U-Net网络特征提取部分的标准卷积操作,增强卷积核的鲁棒性和网络的中心骨架,防止过拟合;针对变化检测数据集中图像背景复杂、小目标的变化情况容易被漏检的问题,提出在U-Net中引入注意力机制,抑制模型对非变化类像素特征的学习,加强对变化类特征的学习,提取到更适合的特征。实验结果表明,在引入非对称卷积块和注意力机制后,变化检测的F1分数有明显的提升。
[9]
杨丹, 刘国如, 任梦成, 等. 多尺度卷积核U-Net模型的视网膜血管分割方法[J]. 东北大学学报(自然科学版), 2021, 42(1):7-14.
针对病变视网膜血管结构的计算机辅助诊断问题,提出了一种多尺度卷积核U-Net模型的视网膜血管分割方法.在U-Net模型基础上设计了融合Inception模块和最大索引值上采样方法的多尺度卷积神经网络结构.在网络训练阶段,采取旋转、镜像等操作进行数据集扩充,运用CLAHE算法进行图像预处理;训练后得到的双通道特征图,进行Softmax归一化;最后通过改进的代价损失函数对归一化结果迭代优化,得到完整的视网膜血管分割模型.实验结果表明,所提方法在DRIVE数据集上分割的准确率达到0.9694,灵敏性达到0.7762,特异性达到0.9835,比U-Net模型具有更优的分割效果和泛化能力,与其他现存方法相比具有一定的竞争力.
[10]
TARASIEWICZ T, KAWULOK M, ALEPA J N. Lightweight U-nets for brain tumor segmentation[J]. Lecture Notes in Computer Science, 2021, 3(14): 3-14.
[11]
XIONG Y J, GAO Y B, WU H, et al. Attention U-net with feature fusion module for robust defect detection[J]. Journal of Circuits, Systems and Computers, 2021, 31(3): 218-227.
[12]
YUAN W, PENG Y, GUO Y, et al. DCAU-Net: dense convolutional attention U-Net for segmentation of intracranial aneurysm images[J]. Visual Computing for Industry, Biomedicine, and Art, 2022, 5(1): 1-18.

基金

国家自然科学基金(62172338)
河南省高等学校重点科研项目(22B520049)
河南省科技厅科技攻关项目(222102110134)

PDF(3059 KB)

36

Accesses

0

Citation

Detail

段落导航
相关文章

/