关键词:
多智能体系统
覆盖控制
多智能体强化学习
控制障碍函数
分层强化学习
摘要:
伴随着现代科技的不断进步,多智能体系统在各个领域中都取得了广泛应用,作为多智能体系统的经典应用之一,动态覆盖控制任务旨在驱动多个可移动的智能体分散到给定的任务区域,协作完成对该区域的最优监视,在进行覆盖控制路径规划的过程中,不仅需要考虑到智能体之间的协作关系,还需要满足到复杂环境下的安全要求以及传感器性能限制等多种约束条件,这些限制条件将直接影响到多智能体系统的覆盖控制效果,因此,研究在受限情况下的动态覆盖控制路径规划,是实现覆盖控制任务的关键。本文聚焦多智能体系统在多约束条件下的动态覆盖控制任务,基于无模型的多智能体强化学习算法,针对不同约束条件下的覆盖控制问题进行了研究。主要内容如下:
1.对于复杂环境中的安全覆盖控制问题,现有的相关多智能体强化学习研究中往往通过给予惩罚的方式进行试错规避,无法保证训练过程中的强安全要求。本文对覆盖控制场景下的安全约束进行了分析建模,提出了一种改进的多智能体强化学习方法,通过控制障碍函数的设计,将安全约束融入到多智能体强化学习框架中,使得智能体在训练过程中的安全得到保障,并通过仿真实验验证了改进后的算法的有效性。
2.对于传感器性能受限下的覆盖控制问题,现有研究中使用的多智能体强化学习大多采用端到端的方式进行训练,但由于传感器感知的局限性以及任务的复杂性,多智能体系统在缺乏引导的情况下很难获得正向的奖励,往往导致学习效果不佳。针对这一问题,本文引入分层思想,对多智能体强化学习算法进行策略划分,将传感器受限下的覆盖控制任务分解为上下两个层次,上层负责基于联合观察和环境直接给与的奖励对每个智能体进行目标分配,而下层则负责具体目标的执行,并通过仿真实验证明了分层多智能体强化学习算法的有效性。
3.为了展示前述所提出的算法在实际场景中的应用,本文将无人机集群、动捕系统以及多智能体强化学习算法进行了整合,搭建了半实物仿真平台,通过软硬件设计,展示了算法在真实覆盖控制场景中的有效性。