基于光流引导特征的视频行人再识别方法

时间：2020年04月09日分类：科学技术论文次数：

摘要:视频行人再识别的主要任务是基于视频序列判断由不同摄像机捕获的行人是否为同一身份。当前的视频行人再识别方法大都需要提前手动提取光流图来计算行人的运动特征。为了简化网络结构，减少计算量，提出了一种基于光流引导特征的视频行人再识别方法。首先

　　摘要:视频行人再识别的主要任务是基于视频序列判断由不同摄像机捕获的行人是否为同一身份。当前的视频行人再识别方法大都需要提前手动提取光流图来计算行人的运动特征。为了简化网络结构，减少计算量，提出了一种基于光流引导特征的视频行人再识别方法。首先使用卷积神经网络提取行人图像的深度特征，并根据深度特征图计算光流引导特征来描述行人运动信息;然后联合行人空间外观特征与时间运动特征，获得视频级的行人特征描述矢量;最后计算特征描述矢量之间的欧式距离，判定两段图像序列中的行人是否为同一身份。在数据集iLIDS-VID、PRID2011上进行实验，结果表明该方法具有较高的识别率。

　　关键词:深度学习;行人再识别;光流引导特征;卷积神经网络;循环神经网络

行人识别系统

　　0引言

　　行人再识别的任务是判断两个或者多个无重叠视域的摄像头捕获的行人是否为同一身份，这一技术被广泛应用于刑事侦查、行人检索等任务中，成为当前的研究热点。目前的行人再识别方法主要包括基于图像与基于视频两大类，基于图像的行人再识别方法采用从监控视频中截取的行人图像作为数据集来训练网络，主要通过行人的空间外观信息来判定行人身份[1，2]。

　　相对于单幅图像，连续的视频序列不仅包含了行人的空间外观信息，还包含了行人的时间运动信息，联合空间与时间信息能够获得更加精准的行人特征描述，从而提高行人再识别的准确率[3，4]。MclaughlinN等[5]结合卷积神经网络(ConvolutionalNeuralNetworks，CNN)与循环神经网络(RecurrentNeuralNetwork，RNN)提出了CNN-RNN结构，输入图像首先经过CNN提取深度特征，然后利用RNN融合多个时间步的信息，获得视频级的行人特征描述矢量。ChenL等[6]在CNN-RNN的基础上提出了DeepCNN-RNN，通过连接CNN与RNN的输出，形成行人序列的时空特征描述，该方法相对于基础CNN-RNN，在一定程度上提高了行人再识别的准确率。XuS等[7]同样对CNNRNN结构做出改进，设计了注意力时空池化网络(AttentiveSpatial-TemporalPoolingNetworks，ASTPN)，提取出更具有辨识力的行人特征。刘一敏等[8]在文献[7]的基础上，根据行人步伐大小、运动快慢生成帧间信息，并在网络训练过程中对输入序列添加自适应帧率尺度变化，提高了网络的性能。

　　这些方法大都使用手动方式提取图像序列的光流图，费时费力且存储光流图会占据大量的磁盘空间。LiuH等[9]提出了一种累积运动上下文网络(AccumulativeMotionContext，AMOC)，利用光流提取网络代替手动方式提取光流图，再结合CNN-RNN结构实现视频行人再识别，这种方法进一步提升了行人再识别的准确率，但由于光流提取网络结构复杂，参数数量较大，极大地影响了网络训练的效率。光流引导特征[10](OpticalFlowGuidedFeature，OFF)是将光流法应用于CNN提取的特征图上得出的行人运动特征描述。本文将OFF提取结构与CNN-RNN的视频行人再识别网络结构相结合，应用于视频行人再识别。该方法利用CNN提取行人空间外观特征，OFF表征行人运动特征，联合空间与时间特征生成最终的行人特征描述。在多个数据集上进行实验，结果表明该方法在有效精简网络结构的同时，能够保证较高的识别率。

　　1光流引导特征

　　光流法是利用图像序列中相邻两帧的像素变化来找到上一帧与当前帧之间存在的对应关系，从而计算物体运动信息的一种方法。光流约束方程是光流法中重要的理论基础之一。假设物体同一位置的像素点在相邻帧之间的亮度不会改变，且位移很小，则光流约束方程为I(x;y;t)=I(x+Δx;y+Δy;t+Δt)，(1)式中:I(x;y;t)为第t帧上位置为(x，y)的点的光强度;Δt为时间间隔;Δx和Δy分别为像素点在x轴和y轴上的空间位移。将RGB图像输入CNN，经过卷积操作获得深度特征图。将光流约束方程运用到该特征图，可得f(I;ω)(x;y;t)=f(I;ω)(x+Δx;y+Δy;t+Δt)，(2)式中:f表示从图像I中提取特征的映射函数，这里指CNN;ω为映射函数中的参数。设p=(x;y;t)，将式(2)泰勒级数展开，得到∂f(I;ω)(p)∂xΔx+∂f(I;ω)(p)∂yΔy+∂f(I;ω)(p)∂tΔt=0。

　　(3)式(3)两边同时除以Δt，得∂f(I;ω)(p)∂xvx+∂f(I;ω)(p)∂yvy+∂f(I;ω)(p)∂t=0。(4)当f(I;ω)(p)=I(p)时，则f(I;ω)(p)仅表示p点处的像素值，(vx，vy)即为光流;当f(I;ω)(p)≠I(p)时，则(vx，vy)为特征流。由式(4)可以看出，有矢量F(I;ω)(p)=∂f(I;ω)∂xΔx，∂f(I;ω)∂yΔy，∂f(I;ω)∂tΔt与包含特征流的向量(vx，vy，1)正交，即F(I;ω)(p)会随着特征流的变化而变化。因此，可以认为矢量F(I;ω)(p)由特征流引导，称为光流引导特征。

　　由于OFF特征F(I;ω)(p)与特征流(vx，vy)正交能够很好地编码时空信息，用其代替光流来描述行人的运动信息，在一定程度上保证了行人再识别的准确率。

　　2整体框架设计

　　基于OFF设计了视频行人再识别深度学习网络框架，主要分为特征提取子网络和信息融合子网络两个部分。特征提取子网络包括卷积层与OFF层，其中卷积层用来获取图像序列的空间外观信息，OFF层用来获取图像序列的时间运动信息。信息融合子网络包括时空信息融合、RNN和时间池化层三部分，主要用来融合图像序列的时空信息，形成视频级的行人特征描述矢量。网络训练过程采用多任务损失函数:一是对比损失，通过计算行人特征描述矢量之间的欧氏距离，表征同一身份行人与不同身份行人的距离;二是身份损失，通过匹配特征描述矢量与行人身份标签，优化行人特征提取器。

　　2.1特征提取子网络

　　特征提取子网络以CNN为主干结构，输入的多帧行人图像首先经过CNN提取深度特征图，同时将网络中间层获得的特征图作为OFF单元的输入，用来提取行人运动特征，具体结构如图2所示。CNN的主干结构包含3层，每一层都包含卷积层、tanh激活层、以及最大池化层三部分[6]，用来提取深度特征图，卷积层Conv-3的输出即为行人空间外观特征描述。其中卷积层Conv-1的卷积核大小为5×5×16，卷积步长为2。由于每个中间层对应特征图的尺寸都不相同，OFF层也包含多个不同尺寸的单元，分别对应不同尺寸的特征图。除第一个OFF单元的输入为相邻两帧对应中间层的特征图之外，其他OFF单元的输入均是相邻两帧同一尺寸的特征图与上一个OFF单元的输出，采用残差块连接每两个OFF单元，最后一个OFF单元的输出特征图即为行人的运动特征描述。

　　2.2信息融合子网络

　　信息融合子网络包含3个部分，一是时空信息融合，采用级联融合的方式，融合行人的空间外观特征与时间运动特征;二是RNN，采用门控循环单元(GatedRecurrentUnit，GRU)[11]使不同时间步的行人时空信息相互流通;三是时间池化层，采用平均池化的方式汇总RNN中每一个时间步的输出获得视频级的行人特征描述矢量。

　　3实验及结果分析

　　3.1数据集

　　1)iLIDS-VID[12]:iLIDS-VID数据集是由从机场到大厅的两个非重叠摄像机视域中捕获的行人创建的。数据集中有300个不同身份的行人，每个人有两个摄像机视图的一对图像序列，总共600个图像序列。图像序列长度的平均数为73，范围为23~192。该数据集中大量行人的服装相似，视图中的照明和视点变化较大，背景杂乱且遮挡问题严重，使得实现行人再识别具有很大的挑战性。2)PRID-2011[13]:PRID-2011数据集包含来自两个非重叠视域的摄像头视图的行人图像序列，其中一个摄像头捕获385个行人，另一个摄像头捕获749个行人，两个摄像头之间共有200个人为同一身份。本文只选用具有相同身份的200个行人，共400个图像序列进行评估。序列长度范围为5~675帧，平均帧数为100。与iLIDS-VID数据集相比，PRID-2011数据集在不拥挤的室外场景中采集，背景相对简单干净，很少遮挡，实现行人再识别的难度相对较小。

　　3.2评价标准

　　当前常用的行人再识别评价指标为累积匹配特征曲线(CumulativeMatchCharacteristics，CMC)，其中Rank-n表示准确率排名前n的匹配结果中包含正确匹配对象的概率。将数据集随机分成训练集和测试集。网络训练时，从训练集中选取两段16帧的视频序列作为输入;测试时，将测试集中两个摄像机捕获的行人视频序列分别作为查询集与图集。重复实验5次，并报告平均结果。

　　4结论

　　本文提出了基于OFF的视频行人再识别方法。首先通过卷积层提取图像序列的深度特征，然后利用OFF单元内部的逐元素相减法与Sobel算子计算行人图像的时空梯度。通过使用OFF描述行人运动信息可以避免手动提取光流图，简化了网络结构，行人再识别准确率得到明显提高。通过在多个数据集上进行实验，证明了本文方法的可行性与有效性。

　　参考文献:

　　[1]KalayehMM，BasaranE，GökmenM，etal。Humansemanticparsingforpersonre-identification[C]。ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，CVPR，SaltLakeCity，2018:1062-1071。[2]CaoZ，SimonT，WeiSE，etal。Realtimemulti-person2dposeestimationusingpartaffinityfields[C]。ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，CVPR，Hawaii，2017:7291-7299。

　　图像方向论文范文：计算机图像处理与编程技术的具体应用

　　计算机图像处理与编程技术在各行各业得到了广泛应用，信息处理效率和准确度都有一定的提升，比传统检验技术价值更大，下面文章就是对对计算机图像处理与编程技术在检验中的具体应用策略加以探析，希望可以充分发挥计算机图像处理与编程技术优势，全面强化检验效果，从而推进相关行业的蓬勃健康发展。

上一篇：好氧曝气系统无人值守控制系统设计下一篇：3种市售洗手液的抑菌效果研究

SCI期刊目录

点击咨询期刊详情

学术咨询

让论文发表更省时、省事、省心

基于光流引导特征的视频行人再识别方法

专项学术专题

SCI期刊目录

SCI论文

SSCI论文

EI论文

SCOPUS

翻译润色

期刊知识

发表指导

符合规范的学术服务助力您的学术成果走向世界

学术咨询

让论文发表更省时、省事、省心

基于光流引导特征的视频行人再识别方法

专项学术专题

SCI期刊目录

SCI论文

SSCI论文

EI论文

SCOPUS

翻译润色

期刊知识

发表指导

符合规范的学术服务 助力您的学术成果走向世界

符合规范的学术服务助力您的学术成果走向世界