关键词:
离散余弦变换
卷积神经网络
下采样
固定参数
YOLOv5
摘要:
离散余弦变换(DCT)是JPEG压缩算法的核心步骤之一,将图像空间域的像素数据转换为频率域的系数。DCT与深度学习结合的算法非常常见,但并未从频率角度解析卷积结构。为进一步提升目标检测性能,针对该问题提出改进算法:DCT-YOLOv5。首先,证明卷积神经网络(CNNs)、Transformer和MLP架构都是对频域的隐式建模,验证以往模型设计的默认原则:有效感受野总小于理论感受野、多个小卷积核优于大卷积核。其次,考虑输入通道和卷积核选择合理的输出通道数,做到近似无损变换,其中下采样阶段是唯一改变通道数的地方。最后,通过固定参数比较DCT和卷积,二者差异稳定在±0.8%。并且为了最大程度降低计算量,引入固定组内数量的分组卷积。该模型以YOLOv5为基准,在COCO数据集上设计了丰富实验,验证方法的有效性。取得了28.9%的mAP@.5和277.8的FPS,相对于基准模型获得了1.3%的相对提升。测试结果表明,改进后的模型在精度上有显著提升,并能够在更低的算力平台上运行。