关键词:
强化学习
异步方法
多线程
改进框架
动态权值
摘要:
强化学习是一种重要的机器学习方法。强化学习基于动物心理学的相关原理,采取了人类和动物学习中的“尝试与失败”机制,强调在与环境的交互中学习,利用评价性的反馈信息实现决策的优化。基于异步方法的强化学习是一种最近流行起来的强化学习方法,它采取了不同的智能体并行探索环境的方法,每个智能体独自探索并在线更新全局策略参数。通过这种方法,缓解了传统强化学习算法收敛缓慢、容易陷入局部极小的问题。但是,在面对离散状态空间的问题时,现有的异步强化学习算法没有能够与基于模型的方法很好地结合在一起,这导致其收敛精度受到一定限制。同时,其收敛速度仍需进一步提高。此外,在面对连续状态空间的问题时,通常采用神经网络与强化学习相结合的方法,各个智能体向全局线程推送梯度信息,全局线程需要利用各个智能体推送的信息进行更新。但是,现有的异步强化学习算法不能很好地区分不同智能体推送的更新的价值,导致其收敛速度受到了一定的限制。本文从异步强化学习算法的学习方式入手,结合多种手段,改进异步强化学习算法,提高算法的收敛速度与收敛精度。本文的主要研究内容如下:1.研究了基于模型的异步强化学习算法。在面对离散状态空间的问题时,为了使智能体充分利用探索到的信息进行异步更新,本文将基于模型的方法引入到异步强化学习算法中,提出了异步Dyna-Q算法。异步Dyna-Q算法将智能体分为探索者与学习者两种,探索者对环境进行探索,在探索的同时更新自己的参数,并将探索到的经验存储到经验池当中;学习者根据探索者探索到的经验,对全局参数进行更新,并以此来指导探索者的下一步探索。同时,为了提高算法的收敛速度与收敛精度,本文对异步Dyna-Q算法进行改进,将分阶方法引入到异步Dyna-Q算法当中,提出了异步分阶Dyna-Q算法。异步分阶Dyna-Q算法将智能体学习的过程划分为不同阶段,并使它们在不同阶段执行不同的学习策略,通过这种方式,来使智能体充分利用探索到的知识来进行参数的更新。实验结果表明,本文提出的异步Dyna-Q算法与异步分阶Dyna-Q算法是有效的,较传统强化学习算法与现有的异步强化学习算法能够极大地提升算法的收敛速度与收敛精度。2.研究了基于改进框架的异步强化学习算法。现有的异步强化学习算法可以解决离散空间的强化学习问题,但它也存在一些问题。首先,在现有的异步强化学习算法中,全局线程仅用于更新参数,其信息未被充分利用。同时,不同线程之间的通信方式仍需进一步改进,需要通过不同的线程之间的信息交互来提高算法的收敛速度。基于以上考虑,本文提出一种针对离散空间问题的通用异步强化学习框架,通过该框架,能够使异步强化学习算法高效求解离散状态空间问题,提高收敛性能。本文将该框架与四种异步强化学习算法——异步Q学习算法、异步Sarsa算法、异步Sarsa(λ)算法、异步分阶Dyna-Q算法相结合,提出四种高效的异步强化学习算法,并通过仿真实验验证了所提出算法的有效性。3.研究了基于动态权值的异步强化学习算法。在现有的异步强化学习算法中,当每个线程将更新推送到全局线程时,采用的是统一的学习速率,并没有考虑每次更新时不同线程传输的信息的差异。当单个智能体对全局线程推送的更新偏向于失败信息时,其对学习系统的参数更新没有明显的帮助。所以,本文将动态权值引入了异步强化学习算法,提出了基于动态权值的异步优势行动者-评论家算法。基于动态权值的异步优势行动者-评论家算法充分考虑到不同线程之间的学习状态,根据单个智能体向全局线程推送的内容的不同,能够动态更新其权值,使得算法的收敛效率和收敛性能均有显著提高。实验结果表明,本文提出的基于动态权值的异步优势行动者-评论家算法是有效的,较传统强化学习算法与现有的异步强化学习算法能够提升算法的收敛速度与收敛精度。