关键词:
无监督
开放世界
增量学习
目标检测
摘要:
开放世界目标检测(OWOD)将目标检测问题推广到更为复杂的现实动态场景,要求系统能够识别图像中所有已知和未知目标的类别,并且具有根据新引入知识进行增量学习的能力。然而,当前的开放世界目标检测方法通常将高对象分数的区域标记为未知对象,且在很大程度上依赖于已知对象的监督。尽管这些方法能够检测出与已知对象相似的未知对象,但存在严重的标签偏差问题,即倾向于将与已知对象不相似的所有区域都视为背景的一部分。为解决此问题,该文首先提出了一种基于视觉大模型的无监督区域提议生成方法,以提高模型检测未知对象的能力;然后,针对模型训练过程中,感兴趣区域(ROI)分类阶段对新类别的敏感性会影响区域提议网络(RPN)在提议生成阶段的泛化性能,提出了解耦RPN区域提议生成和ROI分类的联合训练方法,以提高模型解决标签偏差问题的能力。实验结果表明:所提方法在MS-COCO数据集上检测未知对象的性能取得了巨大的提升,未知类别的召回率是SOTA方法的2倍以上,达到了52.1%,同时在检测已知对象类别方面也保持了竞争性;在推理速度方面,该文模型使用纯卷积神经网络构建,而不是使用密集注意力机制,帧率比基于可变形的DETR方法多8.18 f/s。