关键词:
存内计算
静态随机读写存储器
低功耗
数模混合
摘要:
随着人工智能算法在边缘端设备上的广泛部署,如何以较低功耗完成神经网络的推理运算成为嵌入式设备面临的一个重要问题,然而“内存墙”问题成为冯诺依曼体系架构难以解决的一大难题。存内计算架构被认为是一种有效的打破“内存墙”的体系架构,可以显著减少数据搬运的延时和功耗。基于SRAM的存内计算设计方法主要分为数字方法和模拟方法。与模拟方法相比,数字方法具有许多优点,例如更高的运算精度和更灵活的可编程性。然而,目前提出的大部分数字存内计算设计通常都使用较为复杂的SRAM单元,并在SRAM阵列中引入了规模庞大运算电路,这些因素使得其面积开销非常大。本论文提出了一种创新性的数字存内计算宏电路设计方案,并基于提出的宏电路设计了一种数字模拟方法混合的存内计算系统架构。首先,本论文对基于SRAM的存内计算研究背景进行了简要介绍,然后对现有研究工作进行了梳理和分析,介绍了 SRAM和存内计算设计的基础理论和设计要点。随后本文提出了一种新的8管SRAM单元结构,在实现SRAM单元读写以及存储功能的基础上,可以利用其内部电路实现1比特乘法操作,该结构可以减少SRAM的面积开销,并且避免了运算过程中产生读干扰和伪写问题。此外,本论文还提出了一种交错加法树结构,并结合SRAM引入了双轨电压策略,可以显著降低并行加法电路的面积和功耗。本论文还提出了一种结果重组电路,可以提高存内计算宏电路的适用范围和运算精度。我们在40-nm CMOS工艺下设计了容量为16Kb的存内计算宏电路。仿真结果表明,本论文提出的存内计算宏电路在输入和存储数据位宽均为4比特的情况下,吞吐率可达820 GOPS,能效比可达94 TOPS/W。与现有研究工作相比,能效比提高了 30%,面积减少了 70%。最后,我们基于本论文提出的数字存内计算宏电路,提出了一种数模混合存内计算系统架构,对其进行了行为级建模,功能仿真结果表明,该架构可以在4种预设工作模式下正常工作,以应对不同的应用需求。