学术咨询

让论文发表更省时、省事、省心

基于深度学习的实例分割研究综述

时间:2021年12月23日 分类:教育论文 次数:

摘要:深度学习在计算机视觉领域已经取得很大发展,虽然基于深度学习的实例分割研究近年来才成为研究热点,但其技术可广泛应用在自动驾驶,辅助医疗和遥感影像等领域。实例分割作为计算机视觉的基础问题之一,不仅需要对不同类别目标进行像素级别分割,还要对不同目标

  摘要:深度学习在计算机视觉领域已经取得很大发展,虽然基于深度学习的实例分割研究近年来才成为研究热点,但其技术可广泛应用在自动驾驶,辅助医疗和遥感影像等领域。实例分割作为计算机视觉的基础问题之一,不仅需要对不同类别目标进行像素级别分割,还要对不同目标进行区分。此外,目标形状的灵活性,不同目标间的遮挡和繁琐的数据标注问题都使实例分割任务面临极大的挑战。本文首先对实例分割中一些具有价值的研究成果按照两阶段和单阶段两部分进行了系统性的总结。其次,分析了不同算法的优缺点并对比了模型在COCO数据集上的测试性能。此外,还归纳了实例分割在特殊条件下的应用,简要介绍了常用数据集和评价指标。最后,对实例分割未来可能的发展方向及其面临的挑战进行了展望。

  关键词:计算机视觉;实例分割;图像分割;卷积神经网络;深度学习;目标检测;两阶段实例分割;单阶段实例分割

深度学习

  近年来,深度学习和CUDA等并行计算技术迅速发展直接推动了计算机视觉和图像处理领域进入了新的技术时代,实例分割作为计算机视觉基础研究问题之一,其技术可广泛应用于汽车自动驾驶,机器人控制,辅助医疗和遥感影像等领域。在计算机视觉的基本任务中目标检测是预测图像中目标位置和类别。语义分割则是在像素级别上对目标分类。而实例分割可看作是目标检测和语义分割的结合体,旨在检测图像中所有目标实例,并针对每个实例标记属于该类别的像素。即不仅需要对不同类别目标进行像素级别分割,还要对不同目标进行区分。与其他计算机视觉研究问题相比,实例分割的挑战性在于:

  (1)它需要预测并区分图像中每个目标的位置和语义掩码,并且由于实例的不可知形状使得预测实例分割的掩码比目标检测任务预测矩形边界框更灵活。(2)密集目标的相互遮挡与重叠使网络很难有效区分不同实例,并且小目标的实例分割由于普遍缺少细节导致分割精度仍然很低。(3)繁琐精细的数据标注耗费大量人力与时间,如何减少成本,有效利用现有未标注或粗糙标注的数据提升实例分割精度仍是一个亟待解决的问题。

  1980年日本学者福岛邦彦[1]提出的神经认知机模型可以称为卷积神经网络的前身,YannLeCun[2]提出反向传播算法使网络训练成为可能,之后2012年AlexNet[3]在ImageNet图像识别大赛上获得冠军。从此深度卷积神经网络引起人们关注,研究者用它解决计算机视觉任务。近年来,实例分割的研究基本是建立在基于卷积神经网络的目标检测和语义分割基础之上。

  因此,从研究发展来看实例分割任务是卷积神经网络成功运用在计算机视觉领域的产物[4]。所示实例分割方法主要归纳为两阶段与单阶段两类,其中两阶段实例分割有两种解决思路分别是自上而下基于检测的方法和自下而上基于分割的方法。而单阶段实例分割可细化为感知实例分割,建模掩码,Transformer嵌入及一些其他方法。本文从实例分割的研究现状,算法优缺点和主流方法性能对比,特殊条件下的应用,常用数据集与权威评价指标等角度出发对一些具有启发性的研究成果进行整理,归纳和分析,为相关研究提供有价值的参考。

  1实例分割研究现状

  从研究时间线来看,实例分割技术根据处理过程目前主要归纳为两类:两阶段和单阶段,本文将分别进行介绍。

  1.1两阶段的实例分割两阶段实例分割是以处理阶段划分,其中自上而下的基于检测方法是先检测出图像中实例所在区域,再对候选区域进行像素级别分割。而自下而上的基于分割思想则将实例分割看作是一个聚类任务,通过将像素分组为图像中呈现的任意数量的目标实例,最后判断每组的类别来生成实例掩码,这种不需要束缚于目标框的影响。

  1.1.1自上而下的实例分割自上而下的实例分割研究受益于目标检测的丰硕成果。下面介绍一下代表性的方法。2014年BharathHariharan在SDS[5]中首次实现检测和分割同时进行,也是最早的实例分割算法,奠定了后续研究基础[6]。具体分为四步。

  (1)建议框生成,使用MCG[7]为每张图片产生2000个候选区域。(2)特征提取,联合训练两个不同的CNN网络同时提取候选区域和区域前景特征。(3)区域分类,利用CNN中提取到的特征训练SVM分类器对上述区域进行分类。(4)区域细化,采用NMS来剔除多余区域,最后使用CNN中的特征来生成特定类别的粗略掩码预测,以细化候选区域将该掩码与原始候选区域结合起来可以进一步高分割效果。

  虽然SDS效果逊色后续方法,但SDS先用检测生成候选区域再对其语义分割的思想为后续实例分割提供了重要的研究启发。2015年该团队又对SDS重新分析认为,只使用CNN最高层的特征来解决实例分割问题存在着掩码细节粗糙的缺陷。即高层特征的语义信息丰富有利于目标分类,但缺少精确的位置信息。

  例如在底层特征图中可以定位目标部件,但是没有丰富语义信息判别区分这个目标部件具体属于哪个物体。所以,引入Hypercolumns[8](所有CNN层对应该像素位置的激活输出值所组成的向量)作为特征描述符,将底层特征与高层特征融合从而提升分类的精确性并改善目标分割细节。之后,CFM[9]算法首次将掩码(Mask)这一概念引入到实例分割中。CFM通过矩形框生成特征图的掩码,并将任意区域生成固定大小的特征以方便处理。

  这里是从卷积特征中提取掩码而非原始图像中提取。 DeepMask[10]是首个直接从原始图像数据学习产生分割候选的工作。简单讲,给定一个图片块作为输入,输出一个与类别无关的mask和相应的分数。它最大的特点是不依赖于边缘、超像素或者其他任何辅助形式的分割,是用分割的方法来生成高召回率的候选区域。但缺点是只能捕捉目标大致外形,不能准确描绘目标边界。为了优化DeepMask的掩码,SharpMask[11]先在前向反馈通道中生成粗略的掩码,并在自上而下的通道中引入较低层次富有位置的特征逐步加以细化,最后产生具有更高保真度的能精确框定物体边界的掩码。

  但是上面提到的方法都需要先在原图生成掩膜候选区域,没有充分利用深度学习特征及大规模训练数据的优势并且推断时间缓慢,这些都是影响实例分割准确性的瓶颈。2016年,何凯明团队在多任务网络级联(MNC)[12]中提出了一种级联结构,将实例分割任务分解为目标定位,掩码生成以及目标分类三个子任务,共用一 个主干网络,将三个不同功能的网络分支级联起来。每个阶段都以前一阶段的结果作为输入。

  整个网络是端到端的。这样主干网络的训练可以共享三个子任务的监督,有利于训练出更好的特征。这种设计另一个优点是可以快速地进行推断。随着计算机并行处理数据能力的提升和目标检测网络性能的快速更新,实例分割研究趋势打开了一个新的局面。前沿的设计思想和领域的认识革新碰撞出新的学术火花。2017年何凯明团队提出简单通用且性能强大的两阶段MaskR-CNN[13],是FasterR-CNN[14]思想应用在实例分割的经典之作,用于许多衍生应用的基线算法,也是现今使用最多,效率最高的实例分割算法。它的成功又激起实例分割领域新的技术浪潮。MaskR-CNN[13]在目标分类和回归分支上增加了用于预测每个ROI的语义分割分支。

  基础网络中采用了当时较为优秀的ResNet-FPN[15,16]结构,多层特征图有利于多尺度物体及小物体的检测。首先,将输入图片送入到特征提取网络得到特征图,然后对特征图的每一个像素位置设定固定个数的ROI(也可以叫Anchor),然后将ROI区域送入RPN推荐网络进行二分类(前景和背景)以及坐标回归,以获得修正后的ROI区域。为了保证特征分辨率,对ROI执行提出的ROIAlign[13]操作替换原始的ROIPooling[14],取消了取整操作,而是通过双线性插值的方法保留所有的浮点数。最后增加了一个Mask(掩码)分支来预测每一个像素的类别。采用了FCN(FullyConvolutionalNetwork)[17]的网络结构,利用卷积与反卷积构建端到端的网络,对每一个像素分类,实现了较好的分割效果。

  同时,2018年Masklab[18]也改进了FasterR-CNN[14],并产生两个额外的输出,即语义分割和实例中心方向。由于MaskR-CNN对实例分割研究具有重要的启发意义,后续涌现了一系列相关的工作,具体方法如下。2018年PANet[19]在MaskR-CNN基础上引入自下而上的路径改进并扩展了金字塔特征提取网络,使用自适应融合的ROI区域特征池化,很好地融合了不同层次的特征信息。DetNet[20]将空洞卷积加到骨干结构中即保证了特征分辨率同时又增大感受野,并提出重新对检测、分割任务训练骨干网络以提高特征表达能力。

  2019年MSR-CNN[21]提出现有的mask打分策略是使用分类的指标,缺乏针对性的评价机制。故在MaskR-CNN基础上修改了mask评价标准,通过添加MaskIOU分支来预测mask并且给其打分来提升模型实例分割性能。同年,何凯明团队提出PointRend[22]将实例分割看作图像处理中渲染问题,细化MaskR-CNN产生的粗糙掩码边缘,先在边缘上选几个点再提取点的特征进行迭代计分计算达到细化掩码的目的。2020年BMaskR-CNN[23]则将目标边缘信息加入MaskR-CNN中用于监督网络以增强掩码预测。

  2021年BPR[24]提出一个后处理细化模块以提高MaskR-CNN的边界质量。RefineMask[25]利用边缘信息和语义分割信息细化MaskR-CNN生成的粗糙掩码边缘。姜世浩等[26]在MaskR-CNN基础上引入两条分支,基于整体嵌套边缘检测(HED)模型生成边缘特征图,一条基于FCN生成偏重于空间位置信息的语义特征图。最后融合以上得到的多个特征图,生成信息更加丰富的新特征。

  1.3算法优缺点对比和实验结果比较

  本小节对文中涉及到的部分实例分割算法进行优缺点比较和性能分析。不同实例分割算法在COCO数据集上的性能对比。本文在最大程度上选择相同的基础网络且没有引入任何训练技巧,以保证算法性能比较的公平性。

  比较的结果均在COCO公开测试数据集上测试,因为COCO数据集是实例分割最常用的数据集,图片背景复杂,目标种类和数量多,目标尺寸相对较小,有很大难度。算法性能主要比较的参数是精度(COCO评价标准,详细介绍见3.4节)及模型参数(#Params)和推断速度(fps)。其中,fps指每秒帧数,值越大算法速度越快,“−”表示未知,学习率规则“1×”表示模型训练12个epoch(180Kiterations),“3×”为36个epoch,以此类推。

  主要从两阶段和单阶段这两类对通用场景下的实例分割算法进行分类总结。从精度上看,相同基础网络时两阶段普遍优于单阶段,且模型所需训练迭代次数少。从速度上看,单阶段则快于两阶段,且精度也是处于平均水平,但以大量训练迭代次数为代价。因此,应用时需要根据具体需求选择合适的算法。综上分析,没有一种算法可以兼顾精度高和速度快,未来还可以从同时提升实例分割的速度与精度入手。

  2实例分割的特殊应用

  实例分割作为像素级别的目标识别任务,目前已广泛应用在遥感影像[62-67],文字检测[68-70],人脸检测[71,72],辅助驾驶系统[73-76],医疗图像处理[77,78]等各个场景下。遥感图像中需要对标的物体进行识别,进而分析与测绘[79]。李澜等人[80]将MaskR-CNN应用于高分辨率光学遥感影像的目标检测和实例分割任务中,目的是在地图上找到遗漏的地理实体并提高矢量地图的质量。瑚敏君等人[65]在MaskRCNN原有的特征提取中每个层级的特征图后再增加一层卷积操作。

  然后,在原有掩码预测结构的基础上增加一个分支实现了高效、准确的高分辨率遥感影像建筑物提取算法。王昌安等人[79]则用于光遥感影像中近岸舰船的检测任务。辅助驾驶系统不仅需要在行驶过程中识别不同的车道线,进行驾驶模式的决策,而且也需要对周围的车辆、行人等进行分析,判断周围的驾驶环境等这些都用到了实例分割[81,82]。邓琉元等人[83]针对无人驾驶中用到的环视相机所呈环形图像中存在目标几何畸变难以建模问题,在MaskR-CNN中引入可变形卷积和可变形ROIPooling来提升网络对几何形变的建模能力以实现环视鱼眼图像中准确的交通目标实例分割。

  田锦等人[74]和蔡英凤等人[73]将实例分割模型用于车道线检测解决了传统的车道线检测算法易受光照变化、阴影遮挡等环境干扰的缺陷。最后,所提算法可以完成复杂交通场景下的多车道线实时检测。除此之外,陈健雄等人[84]提出实例分割模型也可以有效识别中低速磁浮列车上接触轨固件的松动状态,保证了城市轨道交通的安全运行。医疗图像处理需要对血管、骨骼、细胞等区域进行分割与检测,帮助医生进行诊断和研究[81]。同时降低误诊率和漏诊率,所以实例分割也是重要的关键技术之一。

  赵旭等人[77]研究基于实例分割的乳腺超声肿瘤识别,分割出乳腺超声图像的肿瘤区。郑杨等人[78]在MaskR-CNN中加入空洞卷积完成宫颈细胞图像分割。吴宇[85]则提出一个级联的3D椎骨分割网络。可见,实例分割应用已经非常广泛,都是建立在两阶段MaskR-CNN[13]基础之上并有很好的算法效果。未来,实例分割技术一定会有更大的发展应用前景。

  3数据集与评价指标

  深度学习领域关注的是通过使用计算机算法自动发现数据中的规律性,并通过使用这些规律性来采取一些行动。可见,数据规模驱动深度学习领域的发展,收集一个大规模的数据集也是实例分割研究中重要的工作。目前,公开的大型数据集大多是由公司、科研团队或特别举办的专业比赛等收集创建的,需要大量人工进行手动标注,时间成本高[86]。

  4未来展望

  综合来看,实例分割技术正趋向兼并算法实时性和性能高精度的方向发展。单阶段的实例分割在性能上不弱于两阶段的实例分割,但相较于两阶段法的网络架构更为简洁,高效且易于训练。由现存算法的性能比较来看还有提升空间。所以,总体期望发展的方向应该是在追求精度提升的基础上实现快速实时实例分割,更好的适用于实际应用。此外,(1)笔者认为实例分割与目标检测,语义分割等其他高级计算机视觉任务可以互惠互利,可重点研究在不同图像感知任务之间的相互关系。此外,自然语言处理和计算机视觉两大任务可以彼此互鉴。最近,自然语言处理中常用的Trans- former[91,92]在计算机视觉(CV)领域已经做了一些初步探索,未来针对CV的特点设计更适配视觉特性的Transformer将会带来更好的性能提升[93]。

  (2)目标间遮挡和交叠情况仍然是实例分割最具挑战性的问题,可借鉴图卷积神经网络,胶囊网络和目标检测中的推理关系网络来有效解决遮挡情况下的实例分割问题。(3)目前实例分割只针对单独的目标,没有考虑目标间的关系。从目标检测的经验来看,图像中不同目标是具有空间和语义的上下文联系,这种信息的流动和融合有助于目标检测精度的提升。实例分割可以借鉴注意力机制,图神经网络的方法来建立目标在空间布局以及几何形状之间的联系。(4)从现有算法的精度来看,小目标的实例分割问题仍然是一个挑战。COCO数据集中定义像素总数小于322为小目标。可见其在图像中像素面积占比很小,经过多次采样和池化等定会缺少很多细节。而实例分割是一个需要精确和完整的像素信息才能完成的任务,两者产生矛盾。未来的研究可以小目标检测为切入点,结合超分辨率图像任务、生成对抗网络、尺度自适应和注意力机制等策略来提高小目标的实例分割精度。

  (5)实例分割大多是有监督学习,其数据采用人工手动进行像素标注的方式,繁琐的数据标注耗费大量的人力和时间。为了减少成本,使用自监督学习、弱监督学习方式从已有未标注或少量标注数据中自动生成标签实现实例分割。也可利用现有的已标注边界框作为先验信息辅助锁定目标范围。(6)从实际应用的角度,现有网络设计的复杂度高,占用内存大,速度和准确度之间还不能达到平衡。轻量化的网络架构,满足速度快和精度高的需求将是实例分割未来探究的重要内容。

  参考文献:

  FukushimaK.Neocognitron:ASelf-organizingNeuralNetworkModelforaMechanismofPatternRecognitionUnaffectedbyShiftinPosition[J].BiologicalCybernetics,1980,36(4):193–202.

  [1]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278–2324.

  [2]KrizhevskyA,SutskeverI,HintonG.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].Advancesinneuralinformationprocessingsystems,2012,25(2):1097–1105.

  作者:苏丽1,2,孙雨鑫1,苑守正1

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问