关键词:
视频显著性目标检测
动态滤波器
注意力机制
对比学习
深度学习
摘要:
现有视频显著性目标检测(VSOD)网络面临2个问题:一是在捕获时间信息时计算成本过大,导致网络难以在移动端实际应用;二是网络泛化能力较弱,难以处理视频中诸如遮挡、运动模糊等挑战性场景。因此,提出一种基于动态滤波器和对比学习思想的轻量视频显著性目标检测网络。首先,对连续帧的每帧图像进行粗略的前景特征点采样并进行相似度矩阵的计算,利用相似度矩阵进行加权从而滤除存在的噪声特征;其次,用滤波后的前景特征生成动态滤波器参数,对原始特征图执行卷积操作以提取前景物体;同时在训练阶段设计了一个对比学习模块帮助网络学习,在推理阶段并不会引入额外的计算量。在三个数据集DAVIS、DAVSOD和VOS上进行了广泛实验,实验结果表明,所提网络相较于DCFNet(Dynamic Context-sensitive Filtering Network for video salient object detection),在Fmeasure、S-measure以及平均绝对误差(MAE)3个指标上性能接近,帧率从28 frame/s提升到38 frame/s,提升了35.7%,同时网络参数量仅有15.6×10^(6),更有利于实际应用中在边缘侧进行部署。