关键词:
申威处理器
不可屏蔽中断
操作系统
锁死
故障诊断
看门狗
摘要:
国产申威处理器的不可屏蔽核间中断(NMII)具有必须由某一核心主动发起的特性,导致目前无法适用Linux通用的锁死故障监测算法,严重情况下将影响关键领域的数据处理。针对该问题设计适用于申威架构的锁死故障监测与诊断系统。采用链式结构发送NMII请求,结合定时器事件和内核线程进行锁死时间戳检查,实现系统内单核心的软锁死与硬锁死监测;基于故障容错机制,采用主从式结构监测所有核心状态,当主核心发生故障时,执行容错措施并迁移主核心,实现系统内多核心故障的锁死监测;设计基于NMII的任务模型,实现锁死故障核心的诊断信息输出并扩展NMII应用场景。测试结果表明,所提算法在低与高故障风险下均可实现锁死故障的准确检出并作出实时诊断,满足申威平台锁死故障监测与诊断的可靠性与实时性要求。