关键词:
Q-Learning
ROS机器人
强化学习
路径规划
径向基函数
探索策略
摘要:
移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的方法。传统的Q-Learning算法路径规划存在拐点多、路径长、训练轮次多等问题。因此,提出一种改进算法,针对原Q-Learning算法在机器人路径规划中存在的学习速度慢、探索效率低、规划路径长等突出问题进行了优化。首先,基于栅格地图,在传统算法的基础上采用径向基函数(RBF)网络对Q-Learning算法的动作值函数进行逼近;其次,为了平衡探索与利用的比例,采用了动态调整贪婪因子的方法;最后,增加了机器人可选择的动作,扩充了动作集,改进为八方向探索。仿真结果表明,与Q-Learning算法相比,改进后的Q-Learning算法可将最优路径长度缩短23.33%,拐点个数减少63.16%,算法训练轮次减少31.22%。