关键词:
机械臂
路径规则
TD3
长短期记忆网络
事后经验回放技术
摘要:
在军事航空领域中,复杂任务对机械臂路径规划提出了挑战。针对双延迟深度确定性策略梯度(TD3)算法学习效率低、样本利用率低的问题,提出了一种改进的TD3算法(Recurrent-TD3算法)。首先,将LSTM结合到策略网络与价值网络中,捕获航空控制任务中的时间序列信息,增强对时间序列变化的响应能力,使其能够在决策时考虑历史动作和状态,提高网络的表达能力;然后,将事后经验回放(HER)技术集成到TD3算法中,以解决任务中稀疏奖励难以学习的问题,通过将未达到目标的经验转化为达到新目标的经验,从而更有效地利用样本;最后,设计了一种基于包围盒的碰撞检测流程,以提高机械臂在军用航空任务中的安全性。实验表明,该算法相比于其他算法能够更快地找到一条无碰撞的路径,且平均路径长度最短。