改进R-FCN提高SAR图像识别率

时间：分类：科学技术论文浏览次数：

　　摘要：由于深度学习在目标识别方面取得了显著的成绩，为提高合成孔径雷达(SyntheticApertureRadar，SAR)图像目标识别的精度与速度提供了新的思路。本文将区域全卷积网络(Region-basedFullyConvolutionalNetworks，R-FCN)结构应用于SAR图像目标识别中，取得了良好的效果。对于数据集较小和数据相似度较高的问题，提出了基于迁移学习的R-FCN模型用于SAR图像目标识别。对更快的区域卷积神经网络(FasterRegionConvolutionalNeuralNetworks,FasterR-CNN)和R-FCN进行模型训练及优化，并与本文所提出的基于迁移学习的改进R-FCN模型实验结果进行对比。结果表明，本文所提出的方法对SAR图像具有更好的识别效果和更快的识别速度。

　　关键词：机器视觉;目标识别;合成孔径雷达;全卷积网络;迁移学习

图像识别

　　0引言

　　SAR(SyntheticApertureRadar，SAR)成像[1-2]是通过雷达与成像目标之间相对位移产生等效的合成天线阵列，再通过发射端发射宽带信号与合成阵列的相干获取距离像和方位向的高分辨实现的成像技术。因其受到外界天气的影响相对较小，还具有一定的地表穿透能力，所以在军事领域、国土资源、农林业、重大灾害等方面应用广泛[3]。传统的SAR图像识别技术[4-5]在数据量巨大且数据愈发复杂的情况下，会导致最终的识别精度和识别效率低下，而深度学习是通过将获得的低层次特征进行非线性组合，由此来得到数据的抽象表达。深度学习在图像识别领域的成功，为它在SAR目标识别[6-8]方面的应用提供了依据。

　　RossGirshick提出了一种基于基于区域特征提取的卷积神经网络(RegionConvolutionalNeuralNetwork,R-CNN)模型[9-10]用来实现目标检测，R-CNN模型在传统卷积神经网络(ConvolutionalNeuralNetwork,CNN)的基础上可以获得更快的识别速度和更好的识别精度。但R-CNN网络在提取大量候选区域时会占用很大磁盘空间以及巨大的计算浪费。

　　另外，由于传统CNN需要输入图像为固定尺寸(227×227)，所以会进行归一化处理，使图像被截断或拉伸，导致图像信息丢失。文献[11]提出的快速区域卷积神经网络(FastRegionConvolutionalNeuralNetwork,FastRCNN)模型不需要进行图像预处理和生成候选区域，解决了R-CNN中图像信息丢失、计算速度慢和占用存储空间大的问题。

　　为了加快提取候选区域的速度，Ren等人提出快速区域卷积神经网络(FasterRegionConvolutionalNeuralNetwork,FasterRCNN)模型[12-14]，它用区域建议网络(RegionProposalnetworks,RPN)[15]网络来提取候选区域(RegionofInterest,ROI)，然后利用FastRCNN实现目标检测功能。

　　由于RPN获得建议区域只需要做一次完全卷积，能和整个检测网络共享全图的卷积特征，减少了大量冗余数据的计算，加快了目标检测速度。同时，FasterR-CNN还具有较高的检测精度。JifengDai等提出一种基于区域特征的全卷积网络(Region-basedFullyConvolutionalNetworks,R-FCN)[16-17]，用于实现精确并且有效的目标检测。为解决图像分类中平移不可变性与目标检测过程中平移方差的矛盾，提出了位置敏感得分图[18]。在数据集中数据较少的情况下，本文提出了将迁移学习[19]应用于改进R-FCN中实现SAR图像目标识别的方法。

　　1SAR图像数据集

　　1.1数据集介绍

　　本文数据源于美国国防高等研究计划署支持的MSTAR计划所公布的实测SAR地面静止目标数据。与光学图像识别不同，雷达图像识别更加困难，SAR的分辨率远低于光学图像。方位角的变化对SAR图像识别的影响是巨大的[20]，此外，不同背景下的SAR图像对目标识别会产生很大的影响[21]。

　　本文用于训练的数据集是雷达俯仰角为17时所获得的SAR图像，用于测试的数据集是雷达俯仰角为15时所获得的SAR图像。对比可以看出这两者之间存在很大的区别，光学图像肉眼可区分出不同型号的战车，而通过人眼观察SAR图像无法区分出战车的不同型号，因而需要借助于计算机来区分。实验采用的训练集和测试集中分别包含五种类别的战车，分别为ZSU_23_4、ZIL131、2S1、T62、D7。每类中包含299个训练样本和274个测试样本。

　　1.2图像数据集扩展

　　由于用于训练的数据集数量相对较少，使训练参数不能达到最优，不能得到很好的识别效果，需要通过图像增强中的灰度变换对训练集数据进行扩充，本文利用了幂律变换[22]、对数变换[23]与Imadjust函数[24]，使原始训练集数据量扩充到原来的4倍。

　　2R-FCN结构模型

　　人们对于图像检测的速度和精度的需求在逐步提高，在FasterR-CNN的基础上提出了R-FCN模型。R-FCN网络的主体部分可以适应不同的全卷积网络架构，无论是ResNet101[25]还是ResNet152[26]都能满足R-FCN的需求，从而提取出高质量的图像特征，本文采用ResNet101结构。

　　2.1R-FCN网路结构R-FCN

　　包括了输入层，100层卷积层，感兴趣池化层以及千级全连接层。R-FCN网络结构完全共享、完全卷积的体系构成，针对共享网络检测精度不佳的缺陷，加入了位置敏感得分图，该部分负责对目标进行准确识别。假设最终要完成C类目标的分类，对于一个待测物体，首先要对其ROI区域完成划分，使其分为k×k个子网格，每一个子网格中包含了待测物体的不同部分。经过各自对应后，判断每一个子网格内是否含有对应部分，如果符合要求，则识别成功属于该类别，否则归于其他类别。所以对于R-FCN来说，加上图中背景共有C+1类，每一类又要经过k2次处理，所以需要k2(C+1)个通道用来输出。

　　2.2R-FCN工作原理

　　R-FCN网络在识别时，首先由RPN提取出候选区域ROI，每一类的ROI都有高、宽和横、纵坐标四个参数，记为h、w、x、y。由于这些ROI都会被划分为k×k个子网格，故每个子网格的尺寸为(w/k×h/k)。之后，在第101层卷积层引入位置敏感得分图，将k2个子网格都与得分图上的相应区域进行位置敏感的评比，可以通过平均池化实现。给定区域(0≤i,j≤k-1)，假设坐标为(i,j)的子网格需要在得分图上寻找坐标同为(i,j)的位置完成池化操作，共进行C+1次。

　　由于每类ROI都有四个坐标，在计算出位置敏感得分后还需要对其完成回归操作，故还需要4k2个卷积层用于包络框回归。对其进行位置敏感池化，为每一类ROI都产生4k2个矢量。然后平均得分可以将其聚合成4维矢量。这个四维向量会将包络框参数化为t=(tx,ty,tw,th)。由于包络框回归后没有别的层级，所以网络的运算速度相应加快。

　　3基于改进R-FCN的SAR图像目标识别

　　3.1改进残差网络的R-FCN

　　R-FCN的最初提出是对光学图像的目标检测，由于光学图像的灰度变化平滑并且目标特征明显，因此R-FCN的特征提取网络能够有效的提取目标的特征。SAR成像原理与光学成像原理不同，其中，SAR图像带有很多相干斑噪声[28]，严重影响特征的提取。卷积核的大小决定着卷积神经网络最终输出特征向量所包含的原图特征信息量的多少。卷积核越大，所取得的特征图的信息量越多，此外，卷积核越大越能够有效的抑制SAR图像中的相干斑噪声对识别结果的影响。

　　3.2改进位置敏感区域池化层的R-FCN

　　3.2.1改进的位置敏感区域池化层

　　由于原始R-FCN网络中的位置区域池化层具有一定的特殊性，原始R-FCN网络结构的设计适用于目标检测数据集PASCALVOC，此数据集中目标加背景一共有21类。位置敏感区域池化层(Position-SensitiveROIPoolingLayer,PSROIPooling)[29]决定着R-FCN特征提取网络的特征图的个数。当检测目标类别越多时，网络提取的特征图个数越多，当数据集中目标加背景的类型远小于PASCALVOC的类别会导致R-FCN网络畸形。

　　为了得到更好的识别率，对位置敏感区域池化层作出了更适合小类数据集的改进。首先通过RPN获得位置敏感区域的位置，将其与特征图结合生成位置敏感分数图，然后对位置敏感分数图做全局最大值池化，得到长度为k2(c+1)的特征向量，最后对特征向量做全连接操作并放入Softmax中进行分类。将ROIPooling[30]层改为ROIAlign[31]后采用双线性内插的方法获得像素点上的图像数值，从而使特征聚集过程连续操作。

　　3.3迁移学习的R-FCN

　　迁移学习可以将学到的对图像分类的理解分享到新模型中，神经网络从数据中获取信息并把它们换成相应的权重。这些权重被提取出来迁移到其他的神经网络中，加快并优化了模型的收敛速度。在基于迁移学习的改进R-FCN网络的训练过程中，利用预训练模型进行特征提取。去掉输出层后将剩下的网络当做已经训练好的特征提取机应用到新的数据集中。这个过程中，需要对特定层进行训练得到新的权重，冻结其他层保持其权重不变，因此加快了图像识别的速度。

　　4SAR图像目标识别结果及分析

　　4.1FasterR-CNN模型实验结果及分析

　　本节实验采用FasterR-CNN网络对SAR图像进行识别分类。数据集上预训练VGG16[32]模型用来提取网络特征图，学习率为0.002，动量为0.9，权重衰减设置为0.0005，最大迭代次数为45000。通过训练集对FasterR-CNN模型进行训练优化后，利用测试集检测该模型，得到识别结果。在实验中每种类别分别进行测试，若识别出的类别与目标类别不一致的话，则认为识别错误，若没有标注出识别框，则认为漏识别。各种类别的所有测试数据集，通过FasterR-CNN网络模型对SAR图像进行目标识别，得到的目标识别率基本在80%以上，最高可达到95%。识别效果较好。

　　5结束语

　　本文主要研究基于深度学习的SAR图像目标识别算法，将深度学习中全卷积网络框架应用于SAR图像识别中。首先通过图像增强的方法对数据库进行扩增，引入迁移学习方法训练改进R-FCN模型实现对SAR图像的识别。通过对实验结果对比分析，可以看出改进后的R-FCN网络模型的目标识别率略大于原始的R-FCN模型的图像识别率，同时也减少了训练需要的时间。所以当数据集较小时，本文所提方法很好的满足了目标识别的精度和效率。

　　在本文的基础上，之后还可以对R-FCN网络作进一步改进，除了将迁移学习运用到R-FCN中，可以改变残差网络的部分或者改变损失函数的参数值进而改善图像识别的准确性。由于现阶段R-FCN网络应用于SAR图像识别的研究相对较少，大多数还用于识别光学图像，所以在这方面还需要更加深入的研究，希望能设计出更适合于SAR图像识别并且识别率更高的算法。

　　参考文献：

　　[1]ZHOUY,WANGW,CHENZ,etal.High-resolutionandwide-swathSARImagingmodeusingfrequencydiverseplanararray[J].IEEEGeoscienceandRemoteSensingLetters,2020,PP(99):1-5.

　　[2]苏娟,杨龙,黄华,等.用于SAR图像小目标舰船检测的改进SSD算法[J].系统工程与电子技术,2020,42(5):1026-1034.SUJ,YANGL,HUANGH,etal.AnimprovedSSDalgorithmforsmalltargetshipdetectioninSARimages[J].SystemsEngineeringandElectronics,2020,42(5):1026-1034.

　　[3]JANSENRW,RAJRG,LUKER,etal.PracticalMultichannelSARImagingintheMaritimeEnvironment[J].IEEETransa.onGeoence&RemoteSensing,2018:1-12.

　　[4]DINGB,WENG,HUANGX,etal.TargetrecognitioninSARimagesbyexploitingtheazimuthsensitivity[J].RemoteSensingLetters,2017,8(9):821-830.

　　作者：周晓玲，张朝霞*，鲁雅，王倩，王琨琨

上一篇：理论与数据双驱动的社会分层研究下一篇：化学机械抛光垫研究进展