关键词:
片上网络
路由器架构
功率门控
高性能
低功耗
能量效率
摘要:
随着集成电路技术和计算机体系结构设计的进步,越来越多的核心可以被集成到一个芯片中。单个处理器上集成的核心数量及其并行化程度成为了衡量处理器性能的重要指标。面对不断增加的核心数量,核心之间的互连结构逐渐成为了影响芯片整体能效的主要因素之一。相较于总线结构,片上网络具有更好的可扩展性,更低的传输延迟和更高的吞吐量,成为了大规模多核和众核系统的主要互连架构。然而,随着系统集成的核心数量进一步增加,片上网络也变得更加复杂,对系统的整体性能和功耗约束也更高。面对日益增长的通信需求,设计更高能效的片上网络至关重要,这也是当前和未来大规模多核和众核系统设计必须解决的重要问题。
路由器是片上网络的核心组件,其能效直接影响片上网络的整体能效。本文围绕片上网络的高能效路由器架构设计,主要在以下四个方面进行了探索性研究:
(1)提出了双通道路由器架构设计。流水线深度和网络拥塞是影响片上网络能效的关键因素。该设计通过结合前瞻路由和低负载旁路技术实现了单周期路由器流水线,从而缩短了流水线深度。此外,该设计还设计了双通道结构和级联交叉开关来优化路由器内部数据路径,从而减少了因数据包竞争而产生的网络拥塞。基于PARSEC基准应用和综合流量的评估,结果表明,该设计降低了44.8%的延迟,提高了37.8%的吞吐量和30%的能效。基于65纳米工艺的综合结果表明,该设计还能够将路由器时钟频率最高提升18%,从而进一步提升网络性能。
(2)提出了面向虚通道的功率门控方案。在功率门控的片上网络中,唤醒延迟和网络断开问题是影响网络能效的关键因素。该方案利用网络接口中的弹出队列构建了功率门控旁路,允许数据包通过旁路绕过功率门控路由器,从而消除了网络断开问题并降低了唤醒延迟。此外,该方案还设计了一种基于信令的流控机制,能够动态地替换信令计数,从而消除了微片暂停问题。基于PARSEC基准应用和综合流量的评估,结果表明,与基准设计相比,该方案的静态功耗降低最高可达82.5%,能效平均提升8.7%。基于45纳米工艺的综合结果表明,该方案的实现开销仅增加了6.48%。
(3)提出了带宽扩展的多片上网络架构。在多片上网络中,高序列化延迟是影响网络能效的关键因素。该架构重新设计了输入端口,交叉开关分配器和网络接口,允许路由器通过利用其他路由器的空闲物理链路来扩展带宽,从而减少性能损失。其他路由器则获得了更长的休眠周期,从而节省了更多的能量。基于PARSEC基准应用和综合流量的评估,结果表明,与最先进的设计相比,该架构降低了19.3%的延迟,减少了23.2%的静态功耗,提升了46.2%的能效。基于65纳米工艺的综合结果表明,该架构仅增加了1.4%的实现开销。
(4)提出了一体化的片上网络快速仿真工具。软硬件仿真工具多、技术跨度大是当前片上网络仿真成本高、效率低的主要原因。该平台是一款高度参数化的片上网络模拟器,增加了新的性能和功率模型,以及对跟踪驱动方法的支持。此外,该平台还设计了一款片上网络生成器,能够根据配置文件和单元库快速构建片上网络寄存器传输级模型。评估结果表明,该平台能够在系统设计的初期阶段快速地评估新设计的性能、功耗和面积开销,从而降低仿真成本,提高效率。