关键词:
脉冲神经网络
压缩感知
直接反馈对齐
神经形态芯片
片上深度学习
摘要:
近年来,人工神经网络(Artificial Neural Network,ANN)被广泛应用于各种智能系统,但其涉及密集的矩阵运算,能量消耗大,计算复杂度高,不适用于计算和存储资源严格受限的移动端或嵌入式边缘智能计算设备。另一方面,受人脑皮层工作机制启发而提出的脉冲神经网络(Spiking Neural Network,SNN)模型及对应的神经形态类脑芯片,利用时空上稀疏的脉冲信号来编码、传输和处理输入数据,可以极大减少计算复杂度,提升处理速度和能效。然而,目前已报道的通用型神经形态芯片如Spi NNaker、True North和Liohi等主要面向大型多芯片系统和数据中心,虽然能灵活配置映射复杂的SNN网络结构和脉冲神经元模型,以及支持先进的SNN学习训练算法,但往往芯片面积巨大,运算延迟高,不适于对成本敏感的边缘端实时系统。同时,国内外也研制出了一系列小型神经形态类脑芯片,但只能针对特定的浅层SNN模型运行简单的片上学习算法,虽然其面积成本低,实时处理性能强,但目标识别率较低,无法满足实际应用需求。因此,研究提出复杂度低、识别精度高的轻量级SNN模型及学习算法,以及设计面积小、速度快、支持片上深度SNN学习的边缘端神经形态类脑芯片,具有重要的科学意义和实用价值。论文针对上述SNN模型及神经形态类脑芯片设计领域的关键问题,研究了适用于低成本硬件实现的轻量级SNN模型及学习算法,提出了适于边缘端应用的神经形态类脑芯片架构及电路设计技术,分别基于FPGA平台和ASIC流片实现了芯片原型,完成了芯片功能及性能测试,并同国内外相关工作进行了全面对比。论文的主要贡献包括:(1)研究提出了一种基于脉冲域时空压缩感知特征的轻量级SNN模型及训练算法,可以在保证足够脉冲特征稀疏性和低计算复杂度的前提下,获得较高的识别精度;(2)基于误差随机反馈直传理论,提出了一种轻量级深度SNN学习算法Deep Tempo,该算法识别率高,且具有内在的并行性和时空局域性,非常适于硬件片上并行运行;(3)研究提出了先进的边缘端神经形态类脑芯片架构和模块电路,支持片上高效运行上述Deep Tempo算法,高速实现片上深度SNN学习和推理;(4)基于FPGA完成了上述芯片的原型功能验证,并进一步完成了该芯片的物理版图设计,基于65 nm CMOS工艺流片实现了ASIC原型芯片,裸片面积15.32mm,包含1K神经元和256K神经突触,支持片上深度SNN学习,工作在1.2V内核电压和83MHz时钟频率下,芯片在MNIST数据集上可达到87帧/秒的实时深度学习性能,最终识别率为96.29%,片上学习过程的平均功耗为106m W,其中每次突触操作仅消耗97p J能量。