关键词:
单目标跟踪
目标状态计算
注意力机制
时空信息融合
摘要:
目前,主流的基于孪生网络的单目标跟踪方法,通过计算模板与搜索区域之间的相似度来匹配目标,缺乏对目标时空状态信息的利用。特别是当场景中存在多个相似目标时,孪生网络跟踪器往往无法精确区分目标,从而导致跟踪错误。针对上述问题,提出一种融合时空信息的Transformer单目标跟踪算法(SIFTransT)。该算法通过MixFormer(end-to-end tracking with iterative mixed attention)跟踪器获取初步的跟踪结果,设计了一个目标状态计算模块,用于计算并存储目标的状态信息,包括目标位置、边界框、速度、加速度、运动方向等,以此深入挖掘目标状态信息。构建了一个基于Transformer的时空信息融合模块,利用编码器的自注意力和解码器的交叉注意力,深入融合目标最近一段时间的状态信息,从而更加准确地对目标状态进行建模,提高目标跟踪的准确性。在LaSOT数据集上的实验结果表明,相比基准算法MixFormer,SIFTransT算法在AUC指标提高了2.8个百分点,PNorm指标提升了2.6个百分点,P指标提升了2.1个百分点,在搭载RTX8000显卡的服务器上平均每秒处理帧数达28帧。