关键词:
高性能计算
国产超级计算机
操作系统
性能评测
集合通信性能
摘要:
超级计算机是“国之重器”,我国在“十四五”期间建设后E级国产超算,支撑关系国计民生的重大计算应用。操作系统作为超算核心系统软件之一,其开销将影响超算整机的运行性能,因此操作系统测评成为新一代国产超算技术路线的重要研究课题之一。openEuler在搭载了鲲鹏处理器的系统上有良好的性能与兼容性,但尚未在超算领域有过大规模应用,因此需要对其性能进行全面评测,并对存在的性能瓶颈进行优化。文中的工作分为两个部分。1)对openEuler在超算系统上的性能开展了评测,并以CentOS为参考对象进行了对比。结果表明,在运行非集合通信密集型应用时,openEuler的性能与CentOS相当。然而,在使用OpenMPI进行Allreduce等集合通信操作时,openEuler的性能会降低最多76.83%,并导致千核规模下通信密集型应用的性能降低最多23.01%。2)基于在评测过程中发现的MPI集合通信性能问题,提出了一种性能建模与优化方法。该方法基于点对点通信的霍克尼模型,为集合通信各实现算法进行建模,以预测不同进程数量和消息大小下的通信时间,从而选择合适的集合通信实现算法。所提方法可通过OpenMPI的MCA接口在运行时动态调整实现算法的选择。优化后,openEuler上的科学计算应用性能提升显著,运行时间最多缩短了26%。