关键词:
神经架构自动搜索
深度学习
脉冲神经网络
加速器
类脑计算
摘要:
近年来,人工智能如深度神经网络和脉冲神经网络等在图像处理、机器翻译、语音识别等各个领域已取得突破性进展。为了获得更好的性能,神经网络架构也越来越复杂,传统的基于高级专家手工调试和设计的方法已难以满足要求。最近一些前沿工作开始关注神经架构搜索(Neural Architecture Search,NAS)方法,通过自动化搜索神经架构获取高性能神经网络。但是,当前的NAS方法还存在着搜索时间长、收敛速度慢、算力消耗巨大、泛化性差等一系列问题。因此,本文以NAS技术为研究重点,针对不同神经网络,如深度神经网络中卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及脉冲神经网络中液体状态机(Liquid State Machine,LSM),分别改进及提出了高效的NAS框架,以加快收敛速度、提升搜索架构性能、降低搜索时间及计算开销,其主要工作和创新点如下:·改进了针对CNN的NAS框架。针对现有面向CNN模型NAS框架搜索时间较长、收敛速度较慢的问题,本文提出了基于概率的进化搜索算法,以一定的概率在更新种群时剔除最差模型来提高收敛速度,并搜索此最优的概率值,从而达到搜索架构性能和搜索时间的均衡。进而,考虑现有NAS性能评估耗时较长问题,本文引入NASBench-201数据集以获取候选CNN模型的验证集精度值,避免了对候选架构参数的额外训练,从而加速搜索进程。实验结果表明,本文提出的基于概率的进化自动搜素算法可以有效提高收敛速度,达到NASBench-201搜索空间内近乎最优性能。·改进了针对RNN的NAS框架。针对现有面向RNN模型NAS框架算力消耗巨大的问题,本文引入了共享权值学习机制来评估每个候选架构性能,进而对候选神经网络的拓扑结构和激活函数选择进行联合优化,提出了基于共享权值的YOTO(You Only Train Once,YOTO)加速训练评估方法,以共享权值仅训练更新一次的方式,进一步加速对候选架构性能评估训练。此外,本文采用四种启发式算法,包括基于概率的进化算法、ε-Greedy算法、模拟退火算法和简化的粒子群优化算法来搜索高性能的RNN模型。实验结果表明,在Penn Treebank(PTB)、Wiki-Text2(WT2)数据集上,所提 YOTO 方法相比现有基于共享权值的NAS方法可以更快速获取高性能RNN架构。同时,所提YOTO方法在PTB数据集上搜索到的最优模型在WT2数据集也表现出较强的泛化能力。·提出了针对脉冲神经网络LSM的NAS框架。针对LSM模型手工设计导致效率低下、调试时间过长的问题,本文提出了面向LSM模型的三步NAS框架,并采用模拟退火算法分别搜索动态多层次多液体LSM模型的最优架构、每个液体最优神经元数量以及最优参数,大大减少了高级专家繁重的手工调试工作。为了提高自动化搜索速度,本文采用代理数据集,即部分训练数据集来训练候选架构。同时,通过等比例缩小最优LSM模型每个小液体的神经元数目,所提框架可以显著减少实现LSM模型的硬件开销,并获得较高的任务识别精度。实验结果表明,在 NMNIST 和 FSDD(Free Spoken Digit Dataset)数据集上,所提框架找到的最优LSM模型在1000个脉冲神经元下的最优精度分别是92.5%和84.5%,与单一液体相比精度可提升2.0%和3.1%,与手工专家设计并联LSM模型相比,精度可分别提升1.8%和2.7%。本文针对不同神经网络的NAS框架可以快速、准确的获取高性能神经网络架构,对其他神经网络如图卷积网络、对抗神经网络等高效NAS框架设计提供有效参考,同时为最终实现端到端的全自动化机器学习设计打下良好基础。此外,随着5G通信及移动互联网等行业的快速发展,神经网络在移动智能端和物联网节点等应用需求不断涌现,智能边缘等设备也迫切需要低功耗、高性能的加速器以高效处理神经网络。HMAX模型是一个面向图像识别任务的前馈神经网络,在计算成本、简单性和识别性能之间可以取得很好的平衡,广泛应用在嵌入式和低功耗系统中。因此,本文也应用了脉动阵列技术的输出(Output Stationary,OS)数据流模式设计了针对HMAX模型最耗时S2层计算的加速器模拟器。通过应用脉动阵列的输出(Output Stationary,OS)数据流模式,该加速器模拟器中的每个处理单元(Processing Element,PE)不仅可以独立计算输出像素点,同时避免了多个PE额外的累加操作,大大减少了可重构加速器中多路选择器的使用,进而极大降低了能耗。此外,该加速器模拟器采用数据转发技术共享相同的输入或权值参数,显著降低了所需带宽。实验仿真结果表明,与现有可重构加速器相比,所