关键词:
自动驾驶
特征提取
强化学习
元学习
摘要:
针对基于强化学习的自动驾驶算法存在收敛困难、训练效果不理想、泛化性能差等问题,提出了一种基于元学习和强化学习的自动驾驶系统。该系统首先将变分自编码器(variational auto-encoder,VAE)与具有梯度惩罚的Wasserstein生成对抗网络(Wasserstein generative adversarial network with gradient penalty,WGAN-GP)相结合形成VWG(VAE-WGAN-GP)模型,提高了所提取特征的质量;然后用元学习算法Reptile训练VWG特征提取模型,进一步得到MVWG(meta-VWG)特征提取模型,以提高模型的训练速度;最后将特征提取模型与近端策略优化(proximal policy optimization,PPO)决策算法相结合,对PPO算法中的奖励函数进行改进,提高了决策模型的收敛速度,最终得到MVWG-PPO自动驾驶模型。实验结果表明,该文提出的MVWG特征提取模型与VAE、VW(VAE-WGAN)、VWG基准模型相比,重构损失分别降低了60.82%、44.73%和29.09%,收敛速度均提高约5.00倍,重构图像更加清晰,并且在自动驾驶任务中的表现也更好,能够为智能车提供更高质量的特征信息。同时,改进奖励函数后的决策模型与基准决策模型相比,收敛速度也提高了11.33%,充分证明了该文方法的先进性。