关键词:
错误检测与纠正
容错电路
低功耗
现场纠错
近阈值
摘要:
随着物联网应用领域的扩展,能效成为集成电路的重要指标。而近阈值计算是提高芯片能效的有效方式。近阈值电压下电路的时序特性对工艺、电压、温度(PVT,process voltage and temperature)的偏差极其敏感。传统的芯片设计方法中,增加时序余量会造成性能、面积和能耗的损失,在近阈值电压工作条件下的影响更加显著。为了减少设计中的时序余量,时序错误检测与纠正(EDAC,error detection and correction)技术得到了广泛的研究。传统的ED AC电路中,一方面,时序错误检测的实现需要在传统寄存器(或锁存器)结构的基础上增加大量的晶体管,导致容错电路单元甚至整个系统的面积增大;另一方面,时序错误的纠正往往会带来额外的性能开销,随着时序错误率的上升,系统的性能会出现明显的下降。本文围绕传统EDAC电路的面积和性能开销问题展开了深入的研究,设计了一种低功耗现场纠错的时序容错寄存器(ESCFF,error in-situ correction flip-flop),并将其应用在近阈值工作条件下的国产自主设计商用处理器CK802中。具体工作内容和创新点如下:1.针对传统的EDAC时序容错电路资源开销较大、时序错误恢复方法导致系统性能显著损失的问题,本文提出一种低功耗现场纠错的时序容错寄存器ESCFF:1)在传统寄存器基础上增加10个晶体管,通过改进的翻转探测方法,检测主锁存器内部节点和输入端信号的差值,获取时序错误信息;2)在主锁存器逻辑基础上额外增加4个晶体管,利用时序错误信号直接控制主锁存器的工作状态,通过时序借用完成现场实时纠错。2.本文设计一款基于ESCFF的低功耗容错处理器,用于验证ESCFF容错电路在面积和能效方面的优势。基于SMIC40nm工艺,将ESCFF应用于国产自主设计的商用处理器CK802中。系统的错误恢复硬件结构采用全局时钟关断的方法进行纠错时序补偿。时序容错处理器在典型工艺、0.6V、25℃的工作条件下,第一个时序错误点(PoFF,pointoffirstfailure)的工作频率为20.6MHz,其中ESCFF寄存器的替换率为10.38%。其标准单元总面积相对无容错功能处理器增大了 9.74%,相对基于Razor-Lite单元实现的容错处理器,额外的面积开销减少了 4.5%。仿真结果显示,在0.6V的工作电压下,相比没有容错功能的基准设计,能耗节省47.5%,性能提升16.7%;相比基于Razor-Lite的EDAC技术,面积减少4.5%,能效提升10.6%。