关键词:
图形识别
脉冲神经网络
自注意力机制
脉冲编码
摘要:
近年,随着大数据技术的蓬勃发展,和并行计算能力的大幅提高,深度学习技术取得了空前的进步。另一方面,人类接受的信息中大约有80%以上是通过视觉信息传达的,因此,对图像识别技术进行研究有着重要的现实意义。但是深度神经网络也有着明显的缺点,相对于人脑大约20瓦特的功耗而言,深度神经网络的训练成本和运行功耗都高的惊人。传统的深度神经网络诞生于冯诺依曼架构的机器背景下,这种模型下的数据存储和计算是分离的,而人脑内的生物神经网络以脉冲信号为载体,网络以“存算一体”的形式工作,是其高效节能的结构基础。因此,深入研究类脑的脉冲神经网络(Spiking Neural Network,SNN)对于降低大模型的功耗,和进一步开发出存算一体的硬件,都有着巨大的推动意义。另一方面,自注意力机制(Self-Attention Mechanisms)是目前深度学习的热点之一。人类在观察外界事物时,会习惯性的根据自己的需求和兴趣,有选择地获取相关信息。同样地,注意力机制也允许模型对输入数据的不同部分赋予不同的权值,使其可以在更为需要关注的部分投入更多的计算。通过这种方式,注意力机制可以帮助模型在处理大量数据的时候,抽取关键信息并忽略无关信息,避免算力开销过大导致的信息过载。总之,在当今这个信息爆炸的时代,让大模型学会分清信息的重要程度,无疑会同时提升模型的表现效果与执行效率。综上,本文对基于注意力机制的脉冲神经网络在图像识别领域的研究方法进行了深入探索,提出了一种结合脉冲特性和自注意力机制的新型网络,并在静态图像数据和神经形态图像两种数据集上进行了实验,来研究该网络的表征能力。本文的具体研究内容如下:(1)提出仿生特征提取与优化的脉冲编码方案。针对传统Vi T模型在特征提取方面没有特定的边缘过滤机制,而是直接通过将视觉信息分块的方式输入到模型的问题。具体方法是受生物视网膜提取图像信息的启发,采用高斯差分滤波来模拟On-Off神经节对视觉信息预处理,能有效的对输入模型的信息进行增强。同时在脉冲编码方面,受时间相关的编码方案的启发,提出了强度微扰动间隔编码。在由像素强度转化而来的脉冲发放时刻上,加上微小的时间噪声扰动,可以提高模型的鲁棒性,这两点同时增强了模型的性能。(2)提出脉冲全局互注意模型(SGMA,Spike Global Mutual Attention)。针对深度学习模型的高成本高功耗,同时针对如何将自注意力机制引入脉冲网络的等问题,本文提出该新模型。前者为深度学习提供了一个节能和事件驱动的计算范式,而后者能够捕获特征之间的依赖关系。SGMA中通过使用脉冲形式的Query、Key和Value来建模稀疏的视觉特征。由于其计算是稀疏的并且避免了乘法,SGMA是高效的并且具有低的计算能耗。同时解决了一些列诸如如何在脉冲情景下实现位置嵌入的核心问题。通过对脉冲神经网络中神经元计算特性的研究,实验不同的训练算法,结合流行的脉冲框架的底层代码,对模型进一步深度优化。研究表明,在神经形态和静态的图像数据集上,SGMA在分类方面都展现出了有竞争力的性能。