关键词:
加速器
卷积神经网络
现场可编程门阵列
数据流水技术
软硬件协同
摘要:
近年来,卷积神经网络(Convolutional Neural Network,CNN)在目标检测、场景分割、图片分类等领域的应用中取得了举世瞩目的成绩,然而随着应用对精度要求的不断提升、模型参数量不断增加、所需计算量不断增大,这使得在“边”“端”侧资源有限的平台上部署低延时应用极具挑战.虽然采用GPU可以完成CNN模型加速计算的理论验证,但受限于GPU定制改造成本以及其自身功耗,无法在实际低功耗系统中应用.相比而言,作为低功耗高性能系统,FPGA平台具备高性能计算能力以及硬件可重构的特点,适于完成CNN加速.当前利用FPGA可重构性的定制计算技术虽然可整合加速器以应对多变的CNN应用场景,调整加速器结构以适配应用计算保证功耗效率.然而,现有卷积神经网络FPGA加速器的瓶颈在于卷积神经网络算法适配性不佳,由此会导致计算间隙大、时延浪费、计算资源使用率低的问题.本文针对CNN算法因局部参数共享所导致的计算密集的特点,重新组织数据流结构以适应并行运算.针对资源有限制的FPGA板卡,本文自底向上定制了矩阵乘法、卷积计算、池化计算等单元,最终组成Ultra加速器(Ultra Accelerator,UltraAcc);同时,本文设计了评估模型进行超参数调优,从底层单元到计算层单元再到整个计算链都做了对存储资源、计算资源、运行时延的评估,再配合神经网络训练的精度,从而实现在软件硬件两个方面平衡优化整个应用系统.Ultra加速器在Ultra96板卡上平均吞吐量可以达到126.72 GOPs,是IEEE/ACM DAC-SDC’19冠军方法的5.47倍.采用Ultra加速器本团队参与了DAC-SDC’20低功耗目标检测的比赛,最终以精度IoU 0.65、速度FPS 212.73、消耗能量1.64kJ夺得2020年该赛项冠军.