关键词:
运行时系统
申威智能加速卡
人工智能
软件定义
摘要:
自主研制的申威智能加速卡上搭载了脉动阵列增强的申威众核处理器,其智能计算能力与主流GPU相当,但仍缺少配套的基础软件.为降低申威智能加速卡的使用门槛,有效支撑人工智能应用开发,设计面向申威智能加速卡的运行时系统SDAA,语义与主流的CUDA运行时保持一致.针对内存管理、数据传输、核函数启动等关键路径,采用软硬协同的设计方法实现卡上段页结合的多级内存分配算法、可分页内存多线程多通道的传输模型、多异构部件自适应的数据传输算法和基于片上阵列通信的快速核函数启动方法,使得SDAA运行时性能优于主流GPU.实验结果表明,SDAA运行时系统的内存分配速度是NVIDIA V100对应接口的120倍,数据传输开销是对应接口的1/2,数据传输带宽达到对应接口的1.7倍,核函数启动时间与对应接口相当.SDAA运行时已支撑主流框架和实际模型训练在申威智能加速卡上的高效运行.