关键词:
激光雷达
多模态融合
三维目标检测
注意力机制
自动驾驶
深度学习
摘要:
基于激光雷达和相机融合的三维目标检测技术广泛应用于自动驾驶领域,然而大部分融合方法只是简单组合不同传感器,忽略了不同传感器的感知能力随环境的变化而变化的问题,从而难以精确检测出行人等分辨率较低的目标。针对这一问题,提出一种基于自适应加权融合激光雷达和相机的三维目标检测方法。首先,使用ResNet50+RPN主干网络提取图像的多尺度语义特征,同时,使用动态体素特征编码器将原始点云数据聚合成点云特征;其次,利用自注意力和交叉注意力融合语义特征和点云特征,自适应地为两者的特征图分配权重;最后,将融合后的点特征通过单阶段检测器SECOND(Sparsely Embedded CONvolutional Detection)进行目标边界框回归和分类预测,并且将检测结果在KITTI数据集上验证。实验结果表明,在简单、中等和困难三种难度级别下,该多模态融合方法相较于原始SECOND模型,对汽车和行人的检测精度均有较大的提升,其中行人的检测精度提升最明显;同时,与许多主流的三维目标检测网络相比,所提方法具有更高的精度。