关键词:
异构加速
嵌入式
推理框架
摘要:
在国产软硬件平台日益普及的背景下,为优化国产实时操作系统的性能,本研究设计一种基于异构平台的实时操作系统推理框架算子加速器。本设计实现的算子加速器以加速前向推理计算为目的,用于支持AI应用在嵌入式端的高效性运行。其中涉及的加速方法包括:层融合技术,多通道并行卷积策略,以及在卷积算子中使用多级流水线策略,以提高推理性能。本设计最终部署至锐华实时操作系统中。在通过对该操作系统特性的充分分析之后,选取了ncnn框架在锐华操作系统中进行了部署。在完成了推理框架的部署之后进一步集成了本设计实现的算子加速器,为操作系统中运行的AI应用提供了强大的算力支持。
首先,本研究对异构平台的特点进行深入分析,选取了高效易部署的推理框架。通过对多种算子的特点的分析,以及对不同加速策略进行对比之后,选取最高效的算子加速方法。之后,在实时操作系统中编写算子加速器驱动程序,成功的将算子加速器集成到系统中。设计实现的算子加速器对异构平台中的计算资源能够进行灵活的调度,并满足了实时性的要求。
其次,在加速方法方面,算子中使用多级流水线的设计,多通道并行卷积和层融合技术。通过优化数据传输策略,有效降低了推理计算时的I/O时间,加速了整体推理速度。同时,本研究采用多通道并行卷积,充分利用异构平台的并行计算能力,进一步提高了推理效率。与此同时,通过层融合的缓存优化策略,有效地减少了数据传输次数,最大程度地优化了计算流程,提高了系统的整体性能。在引入上述加速策略之后,对目标平台上的计算资源进行了充分应用。
实验结果表明,本加速器在应用场景中相比优化前有了显著的计算性能的提升。在图像识别的实时推理任务中,与未引入算子加速器之前相比,本研究设计实现的算子加速器的推理速度加速数倍。且对异构平台上的计算资源的使用几乎到达了百分之百。在加速推理的同时,本设计仍保持较低的系统功耗,总功耗为2.33W。为在嵌入式实时操作系统中部署AI应用提供了强有力的算力支持。