关键词:
持刀行为检测
实时目标检测Transformer(RT-DETR)
目标检测
多尺度特征融合
Transformer
危险行为检测
摘要:
目的在对公安系统网络摄像头获取的视频数据进行分析时,行人危险持刀行为的自动检测面临刀具形状、大小的多样性,以及遮挡和多目标重叠等因素导致的检测精度低、误检率高的挑战。针对上述问题,提出了一种改进实时目标检测Transformer(real-time detection Transformer,RT-DETR)的持刀危险行为检测算法(human-knife detection Transformer,HK-DETR)。方法首先,设计了倒置残差级联模块(inverted residual cascade block,IRCB)作为主干网络中的基本块(BasicBlock),这使得网络更加轻量化,减少了计算冗余,并提高了对全局特征和长距离依赖关系的理解能力;其次,提出了跨阶并行空洞融合网络结构(cross stage partial-parallel multi-atrous convolution,CSPPMAC),专注于多尺度特征的提取,使模型能有效识别不同大小和角度的刀具;最后,引入了Haar小波下采样(Haar wavelet-based downsampling,HWD)模块来替换原模型中的下采样操作,为多尺度特征融合提供了更丰富的信息。同时,采用了最小点距离交并比(minimum point distance based intersection over union,MPDIoU)损失函数来进一步提升检测性能。结果对比实验表明,与原RT-DETR算法相比,改进后的模型网络参数量下降了25%,精度、召回率、平均精度均值(mean average precision,mAP)分别提高了2.3%、5.5%、5.2%;与YOLOv5m、YOLOv8m和Gold-YOLO-s相比,在模型网络参数量较低的情况下mAP又分别提高了6.3%、5.2%、1.8%。结论本文提出的HK-DETR算法能够有效适应网络摄像头下多种复杂环境的持刀危险行为检测场景,相较于其他参与对比的模型,其性能优势得到了充分的展现。