关键词:
iLQR算法
有模型强化学习
标准轨迹制导
强化学习制导
编队保持
摘要:
面向避障、绕飞等任务驱动的飞行器在线轨迹,为了提升制导性能,适应快速变化的复杂场景,聚焦于充分利用飞行器模型中的已知信息,基于iLQR这种有模型强化学习方法,设计了智能化的制导方式。与无模型强化学习相比,有模型强化学习的可解释性好,训练难度低。在单飞行器制导仿真中,相比TD3算法,iLQR方法飞行过程平均制导误差增加了28.07%,中末交班点误差降低到12.35%,提升幅度巨大;在多飞行器编队保持问题上,相比TD3算法,iLQR方法跟踪效果提升巨大,平均误差不超过TD3算法的22.67%,最大误差不超过TD3算法的15.44%。