学术服务内容

在线编辑 学术顾问

咨询率高的期刊

电子论文

基于事件的端到端视觉位置识别弱监督网络架构

时间:2022年04月25日 所属分类:电子论文 点击次数:

摘 要:传统的视觉位置识别(VPR)方法通常使用基于图像帧的相机,存在剧烈光照变化、快速运动等易导致 VPR 失败的问题。针对上述问题,本文提出了一种使用事件相机的端到端 VPR 网络,可以在具有挑战性的环境中实现良好的 VPR 性能。所提出算法的核心思想是,首先采用事

  摘 要:传统的视觉位置识别(VPR)方法通常使用基于图像帧的相机,存在剧烈光照变化、快速运动等易导致 VPR 失败的问题。针对上述问题,本文提出了一种使用事件相机的端到端 VPR 网络,可以在具有挑战性的环境中实现良好的 VPR 性能。所提出算法的核心思想是,首先采用事件脉冲张量(EST)体素网格对事件流进行表征,然后利用深度残差网络进行特征提取,最后采用改进的局部聚合描述子向量(VLAD)网络进行特征聚合,最终实现基于事件流的端到端 VPR。将该方法在基于事件的驾驶数据集(MVSEC、DDD17)和人工合成的事件流数据集(Oxford RobotCar)上与典型的基于图像帧的视觉位置识别方法进行了比较实验。结果表明,在具有挑战性的场景(例如夜晚场景)中,本文方法的性能优于基于图像帧的视觉位置识别方法,其 Recall@1 指标提升约6.61%。据我们所知,针对视觉位置识别任务,这是首个直接处理事件流数据的端到端弱监督深度网络架构。

  关键词:视觉位置识别(VPR);事件相机;事件脉冲张量(EST);深度残差网络;三元组排序损失

视觉位置识别

  1 引言(Introduction)

  视觉位置识别(VPR) [1-2] 是计算机视觉和移动机器人领域中一个非常具有挑战性的问题。在计算机视觉领域,视觉位置识别技术可以在构建好的带有地理信息标注的大规模图像数据库中进行视觉信息检索和跨时间的位置信息检索,或者服务于增强现实(AR)等交互式 3D 视觉应用场景。在移动机器人领域,机器人在无 GPS 环境中进行视觉位置识别的能力是自主定位和导航的核心能力之一。

  在同时定位与建图(SLAM)技术中,视觉位置识别是回环检测(loop closure) [3-4] 的重要组成部分,可用于检测候选闭环并通过全局优化来消除累积误差,从而实现全局一致的位姿估计和建图。此外,视觉位置识别还可以在构建好的环境地图中进行精确视觉定位,可广泛应用于自动驾驶汽车、服务机器人等应用。

  目前已经有许多方案来解决移动机器人的大规模视觉位置识别问题。在传感器方面,这些方案普遍使用单目、双目、全景相机等基于图像帧的视觉传感器,具有对光照变化敏感、易产生运动模糊和冗余信息较多等缺点,使得传统视觉位置识别方法难以处理一些挑战性环境中的识别任务。在算法原理方面,这些方案大多数是基于场景外观的(appearance-based)方法[5],但在昼夜、天气和季节变化等的影响下,同一个位置的外观在不同时间会发生巨大变化,加上一些位置遥远的场景外观可能十分相似,这些情况对现有的基于图像帧的大规模位置识别方法提出了挑战。

  不同于传统的基于图像帧的视觉位置识别方法,本文提出了一种基于事件相机的视觉位置识别方法。事件相机(event camera)是一种新颖的受生物视网膜启发的神经形态视觉传感器,并以完全不同于帧相机的方式工作:它采用地址事件表示(address-event representation,AER)方法,并以微秒级分辨率触发像素级亮度变化(称为“事件”),输出不同于图像帧的稀疏异步事件流[6-7]。

  事件相机具有低延迟、高时间分辨率、低带宽、低功耗、高动态范围等优势,可以有效地克服传统基于图像帧的视觉位置识别方法存在的问题。为了利用事件相机实现鲁棒的视觉位置识别,本文首次提出了一种基于事件相机的端到端视觉位置识别弱监督网络架构。其关键思想是将 VLAD 应用于由事件流生成的 EST 体素网格表征。据我们所知,这是第一个使用事件相机的端到端视觉位置识别方法。在不同天气、不同场景的多个数据集上的实验结果表明,所提出的方法优于基于图像帧的视觉位置识别方法,能够在一定程度上克服视觉位置识别中存在的大尺度场景、高动态范围和长期适应性等挑战性问题。本文的主要创新点和贡献如下:

  (1) 提出了一种基于事件相机的端到端视觉位置识别弱监督网络算法流程,该算法流程直接使用事件流作为输入,能够有效地进行视觉位置识别;(2) 在多个基于事件的驾驶数据集上,针对该方法和典型的基于图像帧的方法在不同天气、季节和环境等大规模场景序列中进行了全面、直观的比较,来评估视觉位置识别方法的性能;(3) 对比了多种不同事件表征、不同网络结构和不同弱监督损失函数对网络整体性能的影响,以说明该方法各个部分的作用和优势;(4) 在增加的扩展实验中,使用自动驾驶仿真器录制了几组事件流序列,探究了载体的行驶速度变化对视觉位置识别准确率的影响。

  2 相关工作(Related work)

  视觉传感器的成本低、功耗低,并且能提供丰富的场景信息,正日益成为位置识别的主要传感器类型。目前流行的大规模视觉位置识别方案普遍采用基于图像帧的(frame-based)视觉传感器 [1-2] 和基于场景外观的方法 [5],来实现大规模的位置识别。在这种情况下,一般可以将视觉位置识别问题转化为带有地理信息标注的(geo-tagged)大规模图像检索问题,并通过匹配相同位置的图像来解决位置识别任务。

  关于如何更好地表征和匹配相同位置的图像,已经进行了广泛的研究[1-2]。这些方法通常采用传统的稀疏特征提取技术(例如 SIFT(尺度不变特征变换)[8]、ORB (oriented FAST androtated BRIEF) [9] 等),以及典型的局部聚合描述子技术(例如词袋模型 BoW [3-4]、VLAD [10-11] 等),来建立图像特征的高阶统计模型。一个典型的工作是 DenseVLAD [12],它使用 SIFT 从图像中提取密集的特征描述,并使用 VLAD 进行特征聚合。

  随着深度学习的兴起,一些工作开始使用现成的(offthe-shelf)卷积神经网络(例如OverFeat、VGGNet和 AlexNet [13-14] 等)作为可训练的特征提取器,还有一些工作将 VLAD 改进为一种可训练的池化层(例如 NetVLAD [15] 等),用来得到图像的描述子向量作为紧凑的图像表征。在检索和匹配环节中,基于序列的(sequence-based)匹配技术是一种受到广泛认可的匹配方法,典型的工作是 SeqSLAM 方法[16],它通过搜索高度相似的序列片段进行视觉位置识别。近年来,研究者们开始试图从不同方面进一步改进识别性能。

  例如,一些基于场景结构的(structure-based)方法,主要利用场景的重复边缘、半稠密地图等结构信息进行位置识别[5,17-18]。也有一些工作采用基于场景语义的(semantic-based)方法进行视觉位置识别,主要利用场景中的路标、文本、物体等语义信息 [19-21]。虽然传统的基于图像帧的视觉位置识别技术在过去十几年中得到了快速发展,但由于帧相机的固有缺陷,目前这些方法仍然难以解决一些挑战性环境中存在的问题(例如光照变化、运动模糊等)。 与基于图像帧的标准相机相比,事件相机具有高动态范围、高时间分辨率和低延迟等优点[6-7]。由于这些优势,事件相机最近受到了越来越多的关注。

  然而,据我们所知,基于事件(eventbased)的视觉位置识别的相关研究工作仍然很少。Milford 等 [22] 首先尝试将 SeqSLAM 法迁移到事件相机上,完成了一个比较粗糙的基于事件帧的位置识别实验。在此之后,他们提出了一种基于事件的视觉位置识别时空窗口集成方案(ensemble-eventVPR)[23]。该方法使用不同事件个数和不同时间窗口尺寸的事件流片段,通过 E2Vid 方法 [24] 将事件流片段重建为一组强度帧序列,分别使用NetVLAD [15] 预训练模型得到对应的视觉描述子,然后通过对描述子的距离矩阵求平均值进行集成,从而进行视觉位置识别。

  然而,该方法并不是直接基于事件流的方法,而是需要将事件流转换成强度帧,实质上依然是一种基于图像帧的视觉位置识别方法。另外,由于用到了不同长度的事件流片段进行强度重建并集成,该算法计算量大且十分耗时,因此难以执行大规模场景中的位置识别,且难以部署到真实的机器人上实时运行。而本文首次提出了一种新颖的端到端的基于事件的视觉位置识别网络,并取得了优异的位置识别效果。

  3 方法(Methodology)

  本节详细描述所提出的基于事件的视觉位置识别方法的网络架构和设计方案,包括算法的各个模块组件以及网络训练的主要步骤和注意事项。

  为了使用流行的基于深度学习的特征提取技术,需要将稀疏异步事件流数据转换为一种卷积网络可处理的表征形式。目前比较典型的事件流数据表征方法大致有运动补偿事件帧(motion-compensated event frame,MCEF)[25]、4 通道图像(4-channel image,4CH) [26] 和事件体素网格(event voxel grid,EVG) [27] 等。

  此外,也可以将事件流转换为传统的基于图像帧的视频(例如E2Vid) [24]。这里使用事件脉冲张量的体素网格表征方法。在将事件流转换为 EST 体素网格表征之后,需要对其进行特征提取。本文使用了在基于事件的手写数字识别任务中预训练的深度残差网络(deep residual network,DRN)ResNet34 [28]作为特征提取网络。为了将其迁移到本文的视觉位置识别任务中,需要对原始网络进行裁剪。

  4 实验(Experiments)

  在 MVSEC [33]、 DDD17 [34] 和 Oxford RobotCar[35] 等多个数据集上进行了实验,通过定量的实验结果来验证本文所提出方法的有效性。进行了 3 个实验来评估所提出的基于事件的视觉位置识别方法。首先,评估了所提出的基于事件的视觉位置识别方法在不同驾驶场景下的性能,并验证了其长期鲁棒性。然后,在同一数据集上对基于事件的本文算法和基于图像帧的视觉位置识别算法进行了比较,并对所提出算法的性能进行了定量分析。最后,从事件表征、特征提取网络和损失函数 3 个方面对所提出的基于事件的网络架构进行了消融(ablation)研究,实验结果证明了该方法各个模块的优势。

  4.1 数据集配置

  由于现阶段还没有基于事件相机的位置识别数据集,因此在本文的实验中,选取并改造了目前公开的几个驾驶场景的数据集进行实验。其中 MVSEC 数据集和 DDD17 数据集是现有的在真实环境中记录的事件相机数据集 [33-34]。本文选取了 MVSEC 数据集的5 个室外驾驶场景序列(包括白天和夜晚场景,由左目 DAVIS 相机获得)和 DDD17 数据集的 12 个室外驾驶场景序列(包括市区、城镇和高速公路场景)的强度图像和事件流片段,其中包含了多种光照变化和场景结构变化。

  此外 Oxford RobotCar 数据集是视觉位置识别领域常用的标准数据集[35]。仿真事件流合成器使用的是 V2E [36],合成序列选择的是 Oxford RobotCar 数据集中由三目立体相机(Bumblebee XB3)采集的中间图像序列。尽可能地选取了不同天气条件下相同轨迹的序列,覆盖了晴天、阴天、雨天、雪天、黄昏和夜晚等场景。上述场景的光照、外观差异较大,能够较好地验证所提出算法的鲁棒性。随机地将相同路线的序列划分为地理上不重叠的训练集和测试集。

  在 MVSEC 数据集中,从 5 个序列中选取了大约40 000 个训练样本和 10 000 个测试样本。在 DDD17数据集中,从 12 个序列中选择了大约 240 000 个测试样本。在 Oxford RobotCar 数据集的 11 个序列中选择了大约 50 000 个训练样本和 12 000 个测试样本。对于参数,在 MVSEC 和 Oxford RobotCar 数据集中,选择潜在阳性距离阈值为 λ = 10 m,潜在阴性距离阈值为 δ = 25 m,且真阳性地理距离阈值为φ = 20 m。此外在 DDD17 数据集中,除了真阳性地理距离阈值为 φ = 50 m,其他的参数都相同。

  在这个实验中,比较了不同的弱监督损失函数对本文方法性能的影响,包括三元组损失(triplet loss,TL)、四元组损失(quadruplet loss,QL)、简化三元组损失(lazy tripletloss,LTL)和简化四元组损失(lazy quadrupletloss,LQL)。在进行这些实验时,均使用 EST 体素网格作为事件表征,ResNet34 作为特征提取网络。实验结果显示不同的弱监督损失函数对模型性能有轻微影响。

  原始的三元组和四元组损失函数使用 sum 算子而不是简化损失函数中的 max 算子,因此原始的三元组和四元组损失往往需要更长的训练时间。而简化的三元组和四元组损失可以在保证性能的同时提高网络训练效率。其中四元组损失的训练结果均略优于对应的三元组损失,训练的模型能获得相对更好的可区分性,从而得到更准确的检索结果。因此,以上这些弱监督损失函数可以在训练的过程中交替使用,从而以较短的训练时间来获得高准确率的模型。

  5 结论(Conclusion)

  提出了一种利用事件相机来解决大规模视觉位置识别问题的弱监督网络架构和算法流程。它的核心思想是将基于 VLAD 的特征聚合描述层应用于由事件流生成的 EST 体素网格表征。本文的实验结果表明,基于事件的视觉位置识别方法比基于图像帧的传统视觉位置识别方法对天气、季节和光照变化引起的周围环境变化具有更强的鲁棒性和适应性。

  仍然需要注意的是,与传统的基于图像帧的相机相比,事件相机具有许多优点(例如低延迟、低功耗、高速和高动态范围等),但是由于目前事件相机的空间分辨率还较低,因此与基于图像帧的视觉位置识别方法相比仍然存在一些不足,这是由于传感器处于不同的发展阶段导致的。在后续的工作中,将尝试结合标准相机和事件相机,实现一种基于帧和事件的视觉位置识别混合网络架构,并将其部署在自主驾驶车辆或微小型无人机上,以进一步释放事件相机的潜力,来解决实际移动机器人的视觉位置识别和视觉回环检测问题。

  参考文献(References):

  [1] Lowry S, Sunderhauf N, Newman P, et al. Visual place recognition:A survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19.

  [2] Zeng Z Q, Zhang J, Wang X D, et al. Place recognition:An overview of vision perspective[J]. Applied Sciences, 2018,8(11). DOI: 10.3390/app8112257.

  [3] Angeli A, Filliat D, Doncieux S, et al. Fast and incrementalmethod for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027-1037.

  [4] Galvez-Lopez D, Tardos J D. Bags of binary words for fastplace recognition in image sequences[J]. IEEE Transactions onRobotics, 2012, 28(5): 1188-1197.

  [5] Oertel A, Cieslewski T, Scaramuzza D. Augmenting visualplace recognition with structural cues[J]. IEEE Robotics andAutomation Letters, 2020, 5(4): 5534-5541.

  [6] Gallego G, Delbruck T, Orchard G, et al. Event-based vision: Asurvey[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2022, 44(1): 154-180.

  作者:孔德磊1,2,方 正1,李昊佳1,侯宽旭1,姜俊杰1