关键词:
马尔可夫过程
强化学习
主动防御
制导方法
摘要:
研究了在“目标拦截者防御者”这类多角色博弈对抗场景中的高超声速飞行器智能主动防御制导方法。针对携带主动防御系统的高超声速飞行器在攻防对抗过程中面临的观测信息非完备问题,如缺失探测信息及存在测量噪声等,提出一种基于卷积深度Q网络的智能主动防御制导方法,以实现飞行器在信息非完备条件下的有效博弈对抗。首先,基于飞行器运动状态的时空连续性,构建一种信息堆叠机制,形成在时间维度扩展的非完备观测信息组;然后,利用所提出的卷积深度Q网络算法,对堆叠信息组进行特征张量提取,并通过非稀疏奖励函数塑造技术训练网络,生成高超声速飞行器和防御飞行器的主动防御制导指令;最后,通过数值仿真验证所提出方法的有效性,并在不同信息测量噪声条件下与已有文献方法进行对比分析,证明所提出方法在飞行器逃逸效果上更具优势,并具备更强的鲁棒性。