关键词:
强化学习
维度灾难
Q函数估计
低秩结构
张量分解
摘要:
强化学习是一种机器学习方法,旨在让智能体在与环境的交互中学习最优策略以最大化收益,在自动驾驶、机器人技术、游戏开发、金融策略优化等领域有着广阔的应用前景。然而,传统的单智能体强化学习和多智能体强化学习在复杂环境中均受到维度灾难的困扰,所需处理的数据量随特征维度和智能体数量增加呈指数级增长,这使得算法的学习和优化变得困难。深度强化学习展现了对强大的环境学习能力,但其黑盒特性导致环境的底层动态无法被有效利用,其进一步的发展受到阻碍。针对这些挑战,本文展开相关研究,主要的贡献和创新点如下:
1.针对在线强化学习中的Q函数学习面临的维度灾难问题,首先使用高阶张量对Q函数进行建模,张量表示充分利用了高阶数据的内部结构信息,缓解了由于矩阵表示导致的结构信息利用不充分的问题。为了利用Q函数的低秩结构,进一步提出了基于张量分解模型的时间差分学习方法,在与环境实时交互的同时通过CP分解技术实现了张量模型的低秩估计。我们提供了Q函数在控制任务上具有低CP秩结构的有力证据。此外,对比不同的矩阵估计方案,张量模型具有更小的参数规模,并且以更低的计算复杂度获得了更好的性能表现。
2.针对深度强化学习中环境的底层动态无法被有效利用的问题,本文专注于利用Q函数的结构化优势,将经验重放缓冲区中的局部样本数据建模为高阶张量并通过CP分解利用其低秩结构,所提出方法为深度网络提供了考虑结构化优势的损失函数以提升训练效果。为了进一步提升估计效果,本文考虑了基于优先级的样本选择方案以改进对于价值高样本的侧重性学习。在控制环境中我们的方法为基于值的深度强化学习基线方法带来了显著的累计奖励提升。
3.针对多智能体强化学习中由于维度灾难导致的学习效率低下问题。首先对基于模型设置下的联合转移函数和奖励函数进行张量建模,以更好地刻画多智能体之间的相关性。并提出了一种基于低秩张量模型的状态-动作空间泛化方法,通过低秩张量分解及补全技术对未知的条目进行高效的泛化从而加速策略学习速度。仿真实验结果验证了基于低秩张量模型方法的性能显著优于基线方法。
综上所述,本文从张量视角分析了三种不同设置下的强化学习框架,以缓解维度灾难、利用高阶数据内在结构以及环境底层动态为重点研究内容,为强化学习方法在更复杂环境中的进一步落地积蓄动能。