关键词:
交通信号控制
公交信号优先
深度强化学习
多智体强化学习
摘要:
随着世界人口总量增加和城市化的进程推进,大量的人口不断涌入城市,在给城市带来劳动力和经济效益的同时,也给城市带来了严重的交通拥堵问题。交通信号控制(Traffice Signal Control,TSC)算法能够很好地协调各个路口中交通信号灯的协作,让车辆在路网中高效通行,缓解交通拥堵。随着人工智能技术的兴起,深度强化学习(Deep Reinforcement Learning,DRL)被很多研究者认为可以有效协调各个路口中的交通信号,缓解交通拥堵。在传统TSC场景中,TSC算法以最大化车辆在路网中的通行效率为目标。然而,路网中的每个智能体的决策都是相互影响的,如何让智能体之间达成高效协作,依然是一个项亟待解决的重要问题。公交信号优先(Transit Signal Priority,TSP)是另一种交通信号控制场景。TSP提出的目的在于通过提高公共交通车辆在信号灯路口的通行优先级,来鼓励更多市民乘坐公交车辆出行,缓解交通拥堵。目前基于DRL的TSP控制算法大都使用基于价值的强化学习,在算法的训练中容易出现Q值高估问题,导致智能体决策不可靠。
针对现有工作的不足,本文聚焦交通信号控制,开展了传统TSC和TSP两种交通信号控制场景的交通信号控制算法研究。本论文的主要研究内容和创新工作如下:
(1)针对传统TSC场景,本文提出基于竞争双深度Q网络(Dueling Double Deep Q Network,D3QN)和时空特征网络的多智体深度强化学习算法用来控制多交叉路口的交通信号。首先,本文将传统的交通信号控制过程建模为一个离散的部分观测马尔科夫决策过程。其次,为了更好地达成智能体之间的合作,提出了使用长短期记忆(Long Short Term Memory,LSTM)网络和自注意力网络对现有基于D3QN的多智体强化学习算法进行改进,构建具有时空特征提取能力的智能体神经网络,让智能体更好地感知到邻居智能体的决策策略,从而达成更好的协作。最后,仿真实验结果表明,本文所提出的算法相比于传统固定时隙的算法能降低44.26%的车辆旅行时间,且在各项评价指标中优于其他基准算法。
(2)针对TSP场景,本文提出基于优势行动者批评家(Advantage Actor-Critic,A2C)和LSTM通信编码网络的多智体深度强化学习算法用于TSP控制。首先,针对TSP场景的特殊性,使用优先队列对应用于传统TSC场景的部分观测马尔科夫决策过程进行改进。其次,将基于A2C的TSC算法引入TSP场景,并且使用LSTM网络对智能体之间的通信方式进行改进,在过滤掉邻居交叉路口观测噪声的同时也让智能体更好地感知邻居交叉口交通流的时序特征。最后,仿真实验表明,本文提出的改进后的TSP控制算法相比于改进前的算法降低了28.58%的公交车等待时间,且在各项评价指标中优于其他基准算法。