关键词:
类脑计算
协同设计
脉冲神经网络
片上网络
性能模型
摘要:
众所周知,人脑在信息处理方面有着极大的优势,仅需约20W的功耗就能同时完成推理、学习、控制及运动等诸多复杂任务。以深度学习为代表的人工智能通过简单借鉴脑系统层次结构与学习训练特性在图像识别、自然语言处理等众多领域取得了突破性进展,但距离达到人脑水平的类人智能还有很大差距。为了尽可能拉进两者距离,类脑计算提供了一种新的思路与途径,其核心为从神经网络算法与硬件结构两方面同时对脑神经系统进行模仿。前者通过借鉴大脑中时空关联特性来构建以脉冲为传递形式的脉冲神经网络;后者则模仿脑结构及其信息处理机制来构建基于片上网络的众核分布并行与存算一体化的类脑处理器。随着脉冲神经网络结构复杂度及其应用规模的不断增大,类脑处理器难以满足其大量的、并发的且复杂的片上脉冲数据交互需求。这将会扰乱脉冲间的时空关系,使得脉冲神经网络精度降低,同时对整个硬件系统的实时性产生影响。如何针对类脑计算应用快速设计出高效能的实时并行硬件系统已经成为了工业界和学术界高度关注的领域。为此,本文致力于基于片上网络的类脑处理器中软硬件协同设计与优化研究。针对脉冲神经网络结构与应用在不同硬件结构下的通信特性,开展了类脑处理器中片上网络通信系统的设计与优化研究。本文深入探索了基于片上网络的类脑处理器中众神经元核之间的通信效率、片上网络结构优化以及神经网络结构优化等软硬件层面的协同设计优化工作。通过设计高效的映射算法以及SNN/NoC软硬件协同设计框架来充分挖掘片上网络结构以及脉冲神经网络结构中的并行性并优化片上通信性能,为软硬件设计目标兼顾的片上通信系统提供设计指导。同时,为充分考虑脉冲神经网络在片上网络上的实时通信特性以及加速协同设计中设计空间的探索,本文还对类脑处理器中的通信以及计算过程进行了理论分析建模,以期实现快速的硬件设计方案评估。论文的主要工作和创新点如下:·本文提出了一个名为SNEAP的脉冲神经网络映射工具链。该工具链通过对脉冲神经网络在基于片上网络的类脑处理器上的通信行为分析来优化脉冲通信任务划分以及通信资源的映射。SNEAP中的划分和映射两个子工具将分别从核间通信量以及通信距离对片上通信性能进行优化。对于划分工具,本文使用多级图划分算法在有限硬件资源约束下快速将脉冲神经网络划分为多个神经元簇并优化核间的脉冲通信量;对于映射工具,本文使用启发式算法将神经元簇映射到片上网络的神经元核上并优化整个平台的延迟和能耗。同时,本文通过将映射的优化目标从模拟器结果替换为可直接计算的平均通信距离,大幅减少了映射工具的执行时间。·本文提出了一个针对脉冲神经网络中液体状态机以及类脑处理器中片上网络结构的协同设计搜索框架。该框架通过启发式搜索算法快速挖掘复杂且巨大的软硬件组合设计空间,从而自动找到在LSM精度和片上网络性能与功耗等多设计目标之间折中的LSM/NoC结构设计方案。该框架克服了因软硬件设计空间叠加形成的高维且复杂的设计空间而带来的搜索难度,利用启发式算法自动对这样的空间进行快速搜索。同时,该框架拉近了软硬件设计之间了鸿沟,搜索出的LSM/NoC结构设计方案在软硬件设计目标上均有不错的表现。·本文提出了一种基于递归演算方法的通信延迟分析模型来对脉冲神经网络中每条脉冲数据流进行延迟上界的评估。具有实时性要求的脉冲神经网络在部署到基于片上网络的类脑处理器上之前,必须要保证每条脉冲数据流的延迟上界都不违背其时限约束。针对这样的需求,该模型可以对脉冲神经网络中每条脉冲数据流的通信行为进行理论分析,从而得出各数据流的延迟上界。本文所提出的模型能支持片上网络下不同的缓存结构,即无虚通道单FIFO缓存结构和虚通道通缓存结构。实验结果表明本文模型的延迟上界评估结果与片上网络模拟器结果相比误差在15%以内,并且比其他模型的结果更加精确。·本文提出了基于类脑处理器基础结构的性能评估框架。该框架的主体为硬件设计实例构造器和性能评估模型。硬件设计实例构造器将配置类脑处理器基础结构和神经网络/硬件结构参数来为目标脉冲神经网络生成硬件设计实例。性能评估模型通过将神经网络/硬件结构参数与各基础单元的评估结果相组合来快速评估硬件设计实例的延时、功耗以及面积。本文提出的类脑处理器性能评估框架是一种早期的设计空间探索工具,该模型能够在广阔的体系结构/微体系结构参数范围内执行快速的高维设计空间探索。通过与TrueNorth公开发布的性能数据比较,模型评估结果误差在8%以内。另外,本文还利用该框架对LSM进行了设计空间探索。实验结果表明通过优化硬件设计实例,可以在延时仅增加1%的情况下获得2.94倍的开销效率改进。