关键词:
移动机器人
深度增强学习
脉冲神经网络
积分点火神经元模型
深度确定性策略梯度
深度Q网络
摘要:
随着机器人技术的发展,移动机器人应用领域不断扩大,未知、复杂环境中的路径规划问题成为研究热点。传统路径规划算法大多依赖于环境的表征,不具备快速响应环境变化的能力,因此,研究在未知、复杂环境中,使移动机器人通过自主学习和决策、自行规划路径、从而提高其环境适应能力的路径规划方法成为亟待解决的问题。2016年Alpha Go完胜人类棋手,其使用的主要技术之一为深度增强学习(Deep Reinforcement Learning,DRL)。DRL因具备深度学习(Deep Learning,DL)提取信息高层次特征的能力与增强学习(Reinforcenent Learning,RL)的自主学习以及决策能力成为当下解决复杂任务的重要技术手段。脉冲神经网络(Spiking Neural Network,SNNs)是一种似真神经网络。SNNs以脉冲神经元为计算单元,其融入了时间与空间信息,模拟信息在人脑中的编码和处理过程,通过脉冲序列的精确时间来传输信息,从而提供稀疏但强大的计算能力。同时,SNNs还易于硬件实现,近几年出现的神经形态芯片,有潜力以更低的能耗满足人工智能快速增长的需求。结合DRL与SNNs的优势,研究基于DRL的移动机器人路径规划方法。针对现有DRL路径规划算法存在的规划路径不平滑、收敛速度慢等问题,以移动机器人Pioneer3-DX为研究对象,提出适于移动机器人路径规划任务的TPR-DDPG、Spike DDPG与Spike DQN算法,论文主要工作如下:首先,介绍了在未知、复杂环境中移动机器人路径规划任务的研究背景与意义以及DRL与SNNs的研究现状,讨论了全局路径规划算法、局部路径规划算法以及基于DRL的移动机器人路径规划方法的研究现状。其次,介绍了RL、DRL的基本概念,Q-Learning、SARSA、深度Q网络(Deep Q Network,DQN)以及深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法和SNNs的编码方式、脉冲神经元模型以及时空反向传播学习方法(Spatio-Temporal Back Propagation,STBP)的相关基础知识。第三,提出了基于TPR-DDPG的移动机器人路径规划算法,重点介绍了算法流程、ACTOR与CRITIC网络结构、三部式奖励函数以及状态预处理。针对不同复杂度环境、不同起始方位角和不同起始位姿与目标点设置实验来评估TPR-DDPG的有效性,并与Q-Learning进行对比,实验结果表明:利用TPR-DDPG算法可在未知、复杂环境中找到一条比Q-Learning平滑的无障碍的最优路径。第四,提出了一种可直接训练的PIPLIF脉冲神经元模型,将其与TPR-DDPG算法相结合,提出了基于Spike DDPG的移动机器人路径规划算法。重点介绍了算法流程、Spike ACTOR网络结构及学习过程、状态脉冲编码。在不同复杂度环境中进行不同状态脉冲编码、不同起始位姿与目标点的实验,并对比不同仿真时间窗长下的Spike DDPG与TPR-DDPG的性能,实验结果表明:在未知、复杂环境下对状态进行直接编码的Spike DDPG(T=10 timesteps)算法找到了一条无障碍的最优路径,与TPR-DDPG算法对比,其收敛速度及到达目标点用时两方面都取得了更优的效果。第五,提出一种Q值脉冲解码方式以及基于Spike DQN的移动机器人路径规划算法。详细推导了Q值脉冲解码过程,重点介绍了算法流程、脉冲值网络、状态脉冲编码以及离散动作设计。通过在不同复杂度环境中设置对比实验,对比DQN与不同状态脉冲编码下的Spike DQN的性能,实验结果表明:对状态进行直接编码的Spike DQN(T=10timesteps)算法可以在未知、复杂环境中成功规划无碰路径,并且收敛速度比DQN更快。最后,对论文工作进行总结,并展望下一步工作。