关键词:
视频图像
显著性目标检测
边界引导
多尺度特征
特征聚合
摘要:
目的视频显著目标检测的目的是识别和突出显示视频中的重要对象或区域。现有的方法在挖掘边界线索和时空特征之间的相关性方面存在不足,并且在特征聚合过程中未能充分考虑相关的上下文信息,导致检测结果不够精确。因此提出了多特征聚合的边界引导网络,进行显著目标边界信息和显著目标时空信息之间的互补协作。方法首先,提取视频帧显著目标的空间和运动特征,在不同分辨率下将显著目标边界特征与显著目标时空特征耦合,突出运动目标边界的特征,更准确地定位视频显著目标;其次,采用了多层特征注意聚合模块以提高不同特征的表征能力,使得各相异特征得以充分利用;同时在训练阶段采用混合损失来帮助网络学习,以更加准确地分割出运动目标显著的边界区域,获得期望的显著目标。结果实验在4个数据集上与现有的5种方法进行了比较,所提方法在4个数据集上的F-measure值均优于对比方法。在DAVIS(densely annotated video segmentation)数据集上,与性能次优的模型相比,F-measure值提高了0.2%,S-measure值略低于最优值0.7%;在FBMS(Freiburg-Berkeley motion segmentation)数据集上,F-measure值比次优值提高了0.9%;在ViSal数据集上,平均绝对误差(mean absolute error,MAE)值仅低于最优方法STVS(spatial temporal video salient)0.1%,F-measure值比STVS提高了0.2%;在MCL据集上,所提方法实现了最优的MAE值2.2%,S-measure值和F-measure值比次优方法SSAV(saliency-shift aware VSOD)分别提高了1.6%和0.6%。结论提出的方法能够有效提升检测出的视频显著目标的边界质量。