摘要:
现有目标检测模型在边缘设备部署时,其检测性能和推理速度的平衡有较大提升空间。针对此问题,基于YOLOv8提出一种可部署到多类边缘设备上的目标检测模型。在模型的骨干网络(Backbone)部分,设计了EC2f结构,在降低参数量以及计算复杂度的同时降低数据读写量;在颈部网络(Neck)部分,将Neck替换为YOLO(you can only look once)v6-3.0版本的Neck,加速了模型推理,并将推理精度维持在较好水平;预测头网络(Head)部分设计了多尺度卷积检测头,进一步降低了模型的计算复杂度和参数度。设计了两个版本(n/s尺度)以适应不同的边缘设备。在X光数据集的实验表明,模型在推理精度上比同尺度的基准模型提升了0.5%/1.7%,推理速度上提升了11.6%/11.2%。在其他数据集上的泛化性能测试表明,模型的推理速度提升了10%以上,精度降低控制在1.3%以内。总的来说,模型在推理精度和速度之间实现了良好的平衡。
摘要:
单纯使用Transformer进行目标跟踪的特征提取时,由于没有归纳偏差而无法自适应目标尺度和外观的变化。为此借助CNN引入多尺度特性,提出了一种基于跨尺度融合特征与轨迹提示的目标跟踪方法(Cross Scale Fusion of features and Trajectory Prompts Tracker, CSFTP-Tracker)。在构建目标跟踪网络输入时,将模板图像与搜索图像同时输入到CNN与ViT网络融合的编码器中,主要设计了一种多级空间感知金字塔模块(Multi-Level Spatial Awareness Pyramid, MSAP),首先,对多尺度CNN特征通过自注意力机制增强目标位置信息,然后将该多尺度特征与ViT中F-embeddings特征相融合,输入到ViT编码器。这种融合策略不仅增进了ViT内部补丁之间的信息交互,还使网络能够同时利用CNN的局部特性和Transformer全局依赖能力。其次,将ViT提取的融合特征与轨迹提示特征输入解码器中,使用自回归学习目标位置,在GOT-10k数据集上的实验结果表明,相较于基线模型,所提出的网络在以下性能:平均重叠率(AO)提升了1.3%,成功率得分在阈值为0.5时(SR0.5)也提高了1.4%。