关键词:
深度学习
目标检测
自适应剪枝
轻量化
移动视觉变换器
复杂度评估
摘要:
为满足深度学习模型在资源受限环境中高效部署的需求,提出了基于场景复杂度的自适应移动视觉变换器(adaptive scene complexity-based mobile vision transformer,AC-MViT)剪枝模型。首先,在移动视觉变换器(mobile vision transformer,MobileViT)网络前引入场景复杂度评估模块,根据场景复杂度动态调整通道数量和变换器层数量,实现在简单场景降低计算开销、在复杂场景保留特征细节的效果。同时,运用动态卷积与变换器层耦合策略,并在训练中加入随机剪枝和计算量惩罚,增强模型的鲁棒性。结果表明,AC-MViT模型在上下文常见对象2017(common objects in context 2017,COCO 2017)数据集和模式分析、静态建模和计算学习视觉对象类2012(pattern analysis,statical modeling and computational learning visual object classes 2012,PASCAL VOC 2012)数据集上取得明显成效,与MobileViT模型相比,在COCO 2017和PASCAL VOC 2012数据集上的平均精确率均值(mean average precision,mAP)分别下降1.1%和0.1%,浮点运算速度分别减少43.1%和46.6%,参数量分别减少49.1%和50.0%,推理时间分别缩短48.4%和52.5%。AC-MViT模型在多种场景复杂度下表现优异,展现出在资源受限环境中应用的高效性和平衡性。