关键词:
视线估计
双分支
特征融合
Agent Swin Transformer
残差网络
空间和信道重建卷积
高效多尺度注意力
摘要:
视线估计是一种预测人眼注视位置或注视方向的技术,在人机交互和计算机视觉的应用中发挥重要作用.针对特征的差异性和利用率不全面的问题,提出双分支特征融合的视线估计算法.首先,构建Agent Swin Transformer网络与残差网络相结合的双分支网络模型,对视线特征进行提取,由改进的Agent Swin Transformer网络构成全局特征提取分支,逐层提取全局语义特征;由残差网络构成局部特征提取分支,提取不同尺度下的局部细节特征.通过特征融合将特征张量连接在一起,增强模型的表征能力.其次, Agent Swin Transformer网络融合高效多尺度注意力模块(EMA)及空间和信道重建卷积模块(SCConv),以加强特征,保持信息有效性,降低复杂性和计算成本.最后,结合头部姿态估计进行视线估计得到最终的视线方向,以减少干扰因素对眼部外观的影响.在MPIIFaceGaze数据集上进行大量实验,实验结果表明,该方法的视线估计角度平均误差为4.23°,同当前主流的同类方法相比,所提出算法能够更为准确地进行视线估计.