关键词:
视频预测
目标中心学习
场景解析
无监督学习
时空预测
摘要:
针对在视频预测任务中维持视频帧间目标空间和时间一致性的问题,提出了基于动态记忆与运动信息的目标中心视频预测算法。首先,引入目标中心模型解耦场景中的目标,确保视频目标在长期动态预测中的一致性和稳定性,有效维持目标的空间一致性;其次,设计目标动态记忆模块,用于捕捉视频的长期依赖并对目标动态进行精确建模,克服现有视频预测方法在预测目标间动态交互上的不足,提升预测目标的时间一致性;再次,利用相邻帧的特征相似性矩阵捕捉帧间运动信息,构建视频序列的时空关系,强化帧间的时间一致性;最后,利用交叉注意力机制融合视频目标的时序和结构信息,提升视频预测效果。在具有复杂目标交互的Obj3D和CLEVRER数据集上进行视频预测实验,实验结果表明:相较于较先进的基于目标中心的视频预测算法,所提算法在PNSR、SSIM和LPIPS 3个指标上性能分别提升了1.48、0.013和0.005。