关键词:
多目标跟踪
深度学习
团队体育视频
VisionTransformer
时空记忆
注意力机制
摘要:
多目标跟踪(MOT)技术为团队体育视频监测和分析提供了全新的可能性,能够实时跟踪多个运动员并支持对比赛动态的多维度分析与理解。然而,在复杂的团队运动场景下,诸如运动员之间的相互遮挡、快速移动以及目标身份的频繁变换等问题,都可能降低跟踪性能。为此,本文提出了基于VisionTransformer的端到端深度学习MOT框架,主要包括检测网络和记忆网络两个部分。检测网络由卷积神经网络(CNN)骨干网、VisionTransformer编码器和解码器组成,采用ResNet50作为特征提取器,并引入局部注意力(LA)模块替代传统前馈神经网络(FFN)层。通过全局注意力和局部卷积的结合,得到更全面的特征表示。记忆网络由记忆编码模块和时空记忆解码器组成。记忆编码模块负责聚合目标嵌入信息,其中,短时互注意力(CA)模块关注即时状态,而长时记忆CA模块则挖掘了记忆涵盖的时间跨度内的显著特征,捕捉长时间间隔内的依赖关系和关联,从而有效保留了跟踪对象的时间上下文信息。时空记忆解码器在嵌入融合过程中综合考虑了编码帧、候选嵌入和轨迹嵌入信息,解决了MOT中的多目标检测和身份关联。时空记忆机制能够有效地保留目标历史状态的观察结果,并结合注意力机制对目标状态进行准确预测。实验结果表明,所提框架在团队体育视频公开数据集SportsMOT上实现了75.7%的HOTA和98.5%的MOTA结果,优于其他先进的MOT方法。此外,所提框架在通用公开数据集MOT17和MOT20上的多个指标取得了最优或次优性能,进一步验证了所提方法的有效性和鲁棒性。