关键词:
小目标检测
RT-DETR
多通道部分卷积
可学习位置编码
摘要:
针对无人机航拍图像中背景复杂、小目标样本多,难以提取有效特征等问题,提出一种改进实时Transformer(real-time detection Transformer, RT-DETR)的无人机航拍小目标检测算法。首先,在特征融合网络中增加针对微小目标的特征融合结构,利用浅层特征图中丰富的位置信息来增强网络对小目标的检测能力,同时为了防止额外参数的增加,去除主干网络中最后一个残差结构;其次,设计一种多通道特征部分卷积模块(multichannel partial convolution, MCPConv),基于此重新构造了主干网络中的BasicBlock结构,命名为MCP Block,减少通道特征冗余,提升多尺度细节特征的获取能力;引入具有学习能力的位置编码,获取更精确、更具表达能力的位置信息;最后引入归一化加权偏差(normalized weighted deviation, NWD)和平均精度驱动交并比(mean precision-driven IoU,MPDIoU)定位损失函数,降低对位置偏差的敏感性,加快模型收敛速度。实验结果表明,在VisDrone2019-DET数据集上,改进后的模型较原始模型参数量降低了62%,检测精度mAP50提升了3.9%,且FPS较改进前提升了17%,对比其他主流检测模型具有更好的检测效果。