关键词:
强化学习
信息熵
机器人
超参数优化问题
摘要:
基于强化学习的机器人学习算法的学习效果都十分依赖于超参数的选择,其学习效率对这些超参数非常敏感。一般情况下,超参数的选择是通过外部循环、使用网格搜索、随机搜索或贝叶斯优化等方法。超参数的调整过程需要大量的计算资源,并且在真实世界场景中面临很多挑战,特别是在课程式任务学习或多任务学习等环境多样性会在线变化的设置中,因为合适的超参数值可能是与任务环境特性相关,当环境或任务变化后,原来的最优超参数值就变成局部最优值,这很大程度地降低了模型的可适用性。相比之下,强化学习中的一些研究工作尝试在学习过程中在线调整超参数,如神经网络模型的学习步长、λ回归中的超参数λ。在学习过程中采用自动调节超参数是很有意义的,因为它比传统学习方法更有实用价值,因为其能根据学习过程的变化来相应地改变超参数的值,但其实现也更具挑战。具体地说,超参数调整过程中,任何超参数的选择不当都可能对智能体的学习效率产生累积的负面影响。例如,非常小或非常大的超参数值可能会减慢收敛速度,甚至导致学习过程是发散;或者即使它最后会收敛,但训练得到的策略可能是次优的。总的来说,超参数选择会耗费很多计算资源和样本数据,同时这些计算资源的使用与数据样本的收集在真实世界的机器人学习中都特别耗时。为了节省计算资源与控制数据样本的收集,本论文研究工作针对该问题,提出了一种自动在线调参算法,本论文在无监督机器人学习框架中测试该算法。无监督机器人学习框架能在任务或环境未知的情况下进行学习,其仅需从环境中采集二维RGB图像作为观察值,不需要为每个任务设计特定的奖励函数。无监督机器人学习可以利用自生成目标的方法从环境中学习大量技能,智能体会学习来自变分自编码器生成的目标,该目标生成器使用存储在回放缓冲区中的样本进行在线更新。基于无监督机器人学习算法框架,本论文提出的算法使用变分自编码器目标函数计算出的值,来近似目标的种数。基于这一近似值,本论文提出的方法能自动在线调节三个超参数值:1.根据目标的种数来设计每回合探索次数Ne,确保能在每回合与环境交互中使用合适的探索次数收集样本;2.根据每回合探索次数来设计回放缓冲区大小Nb,确保能存储每回合探索得到的新状态对,同时避免存储过多样本,从而避免不必要的计算存储量消耗。3.根据目标的种数设计每回合策略更新次数Nθ,确保在每回合中使用足够的策略更新次数。理论上,本论文提出的自动在线调参算法适用于其他使用变分自动编码器及使用视觉信号作为输入的深度强化学习算法中。本文的研究发现变分自编码器的目标函数计算出的值与训练样本的多样性呈正相关,同样与回放缓冲区中的目标的种数Ng和观察值种数NS呈正相关,且超参数Ne,θ,b=(Ne,Nθ,Nb)的最小值可根据目标种数Ng设计。因此,可以通过使用变分自编码器目标函数计算出的值来近似Ng从而选择这三个超参数的值。本研究的创造性研究工作总结为以下三点:1.推导并验证了变分自编码器目标函数与样本多样性的关系,使得根据样本多样性控制机器人学习的过程成为可能;2.提出自动在线调参算法自动调优三个超参数,减少超参数的搜索量,避免学习次优模型、浪费算力和样本资源,使得机器人学习模型能更加容易地在不同机器人平台上学习最优模型;3.测试了在不同实验环境中使用该算法的有效性,并测试了在环境多样性在线变化的设置下使用该算法的优势,降低了在课程式任务学习下超参数的选择所带来的负面影响。