关键词:
网联自动驾驶车辆
智能决策
高速入口匝道合并
行为克隆
多智能体强化学习
摘要:
针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,并且从Highway-env平台收集的多智能体专家数据中推导出专家策略,利用推导的专家策略与智能体当前策略的KL散度来塑造奖励函数,指导智能体训练过程。同时,应用动作屏蔽机制,在每一步过滤掉不安全或无效的动作,提高学习效率。两种不同交通密度场景的仿真结果表明所提算法整体性能优于基线算法,提升了车辆的通行效率和安全性。简单模式中,所提算法的成功率达到100%,平均速度和平均奖励分别至少提升0.73%和11.14%;困难模式中,所提算法的成功率达到93.40%,平均速度和平均奖励分别至少提升3.96%和12.23%。可见BC-MAAC算法通过专家奖励函数指导网联自动驾驶车辆,能够通过合作更类人的完成高速入口匝道合并任务。