关键词:
目标检测
卷积神经网络
Transformer
双模态
特征融合
红外
可见光
摘要:
针对单模态目标检测的不足,提出了一种基于CNN-Transformer双模态特征融合的目标检测算法。在YOLOv5的基础上,构建了一个可以同时输入红外和可见光图像的双流特征提取网络;然后,分别提出了基于卷积神经网络结构的红外特征提取主干网络和基于Transformer结构的可见光特征提取主干网络,以提升对红外和可见光图像的特征提取能力;最后,按照中期融合的思想,设计了双模态特征融合模块,对两个分支对应尺度的双模态特征信息进行有效融合,实现跨模态信息互补。在数据集上对所提算法进行验证,实验结果表明,该算法在KAIST数据集上对双模态图像进行检测的结果,较基准算法单独检测红外图像和可见光图像,精度分别提升了5.7%和17.4%;在FLIR数据集上较基准算法,检测精度分别提升了11.6%和17.1%;在自建GIR数据集上,所提算法的检测精度也有明显提升。此外,该算法还可以单独处理红外或可见光图像,且检测精度较基准算法均有明显提升。