关键词:
第一视角视频
流形结构
自监督学习
时序分割
特征表示
摘要:
随着可穿戴设备和智能存储技术的普及,第一视角视频的使用量高速增长。将这类视频划分成独立的视频片段以提取关键的内容信息,成为了视频理解领域的重要研究方向。这类视频数据规模大、维度高、内容多样,基于欧氏空间的特征学习方法难以有效地处理复杂高维的视频数据。现有时序分割算法在处理第一视角长视频时,很难应对因手部遮挡和运动模糊而导致的帧信息丢失问题。针对上述问题,本文提出了一种自监督流形结构的第一视角视频时序分割算法(Self-Supervised Manifold Structure,SSMS)。受高维视频数据在低维流形空间中具有相似语义聚集现象的启发,该算法将包含时序信息的帧特征进行低维嵌入,使得语义相似的帧特征映射到流形空间中相近位置。首先,本文提出了一种改进的局部流形结构特征学习策略,提取帧数据的局部流形结构。其次,SSMS算法构建了动态时序网络,基于最大相似关系来获得具有不变性的特征表示。然后,将帧数据的流形结构特征作为监督信号进行自监督学习。经过不断迭代优化,得到低维高质量的帧数据特征。最后,通过聚类过程实现第一视角视频的无监督时序分割,避免了标注数据的限制和成本。相比于现有的无监督时序分割算法,本文方法在五个第一视角数据集上平均提高了3.37%的准确度。