关键词:
MWMT
DMA
AXI
多模式推断
摘要:
在21世纪,得益于科技和先进工艺的不断发展,智能芯片的成本越来越低,越来越多的人可以用得起智能设备,原来匮乏的原始数据也不再或缺,新的应用场景应运而生。新的应用场景要求芯片的神经网络推理准确率更高,随之而来芯片内部的网络模型也越来越复杂,究其根本原因是特征参数量与计算量呈指数式地增长。然而,基于万物互联的大数据背景,现有的人工智能芯片在智能家居、车载等实时应用场景中,实现起来困难重重。新的实际使用场景给芯片发展带来了新的瓶颈问题,总结起来主要是芯片能效比低下、资源利用率不高的问题。为了解决该瓶颈,近年来学术界和工业界提出了种类繁多的ASIC(专用人工智能处理器架构)。然而,现有架构通过提高运行频率与增加计算存储单元阵列来提升算力,其已经面临诸如计算单元利用率低下,实现成本高,通讯带宽受限,可扩展性差,功耗高等问题。针对以上问题,研究团队在前期工作中提出MWMT(多权重多线程)执行模型的智能计算体系架构。本文针对定制化设计MWMT执行模型的ASIC芯片进行不同层面的优化。首先,基于卷积神经网络中权重和数据在神经网络中重复调度的特性,本文提出了引导从属协同阵列的结构,重点提高在计算过程中的控制信号分时传递复用,侧面也提高了数据和权重的复用性,减少了数据调度。在保证芯片功能不缩减的前提下,实现面积7%的缩减,降低了芯片的流片成本。另外,本文研究了计算内核与外部存储设备的数据调度,发现由于专用接口协议的限制,数据交互的控制冗余,纷乱复杂。经过调研,针对本文中的定制化芯片,本文设计了DMA(直接内存访问)模块,用于内核计算单元直接访问外部DDR(双倍速率同步动态随机存储器)存储,将已有Xilinx(赛灵思)的专用接口协议更改为业内应用更为广泛的AXI(高速扩展接口)协议,利用状态机实现,提高了数据交互的效率,系统总体延时减少了8%。最后,本文分析了不同神经网络中对于卷积、池化、全连的数据调度,兼容外部存储DDR接口协议带宽的要求,并结合批处理的设计,创新提出了多模式推断的设计,针对本文中的ASIC芯片,结合重组批处理,将原有带宽利用率的18.75%提高到了93.75%,进一步提高了系统的效率。本文的工作从团队前期的MWMT执行模型ASIC芯片出发,内容涵盖数据流的分析,神经网络结构的研究分析,总线带宽的利用率分析,优化后结构的代码实现,后端综合的优化,FPGA(现场可编程门阵列)的验证。本文创新的提出了引导从属协同计算阵列的架构,并分析神经网络结构,创新提出了多模式推断机制,极大地提高了系统的效率,对未来人工智能领域、算法、架构等设计具有重要的参考价值。