关键词:
主动减振系统
PID控制
强化学习算法
多阶段聚焦
残差结构
摘要:
振动导致的负面影响一直是工业界广泛关注的问题,各类精密设备的减振、隔振方法成为工程领域的研究热点。主动减振方法由于减振响应快、隔振精度高等优点,在高精度、高动态环境中的设备减振方面具有不可替代的重要作用。但对于多自由度的复杂减振平台而言,其精准控制也存在较大挑战。论文以比例-积分-微分(PID)控制方法与强化学习方法为基础,针对多自由度主动减振系统的复杂精准控制难题,提出了基于强化学习的PID参数自适应整定理论方法。从控制方法的工程应用出发,对PID参数智能训练、强化学习算法搜索空间多阶段聚焦、策略梯度更新优化等问题展开深入研究,旨在为复杂环境下的主动减振控制方法提供理论借鉴。论文主要研究工作和创新性成果如下:1.针对稳定控制减振系统背景下的PID控制器参数自适应整定问题,提出了基于强化学习的PID控制器参数自适应整定技术路线。基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,构建了DDPG-PID映射回路,以减振系统PID控制器中的闭环控制量作为状态监测,将DDPG算法中动作网络的输出直接映射到PID参数区间,并可根据奖励阈值,自动设定PID控制器的参考值,并在参考值的指导下,进行PID参数的稳定探索,减少了对先验知识的依赖。2.针对强化学习算法中由于智能体随机探索引起的PID控制不稳定问题,提出了基于多阶段动作聚焦过程的强化学习算法—MF-DDPG。借鉴约束强化学习的理念,将PID参数输出在参考值约束在一定的区间内。在动作奖励逐渐满足奖励阈值的过程中,智能体的动作空间受到约束,不断收敛至最优的参数空间,克服了传统DDPG算法中随机探索引起的PID控制器输出不稳定问题,确保减振系统的稳定性。此外,为了保证算法的通用性,本文针对主动减振系统的控制特点,对强化学习算法的环境、奖励、状态等要素进行了通用的定义,提高了该算法对于不同减振控制问题的普遍适用性。3.针对强化学习智能体探索空间约束导致的梯度消失现象,提出了嵌入残差结构的MF-DDPG改进算法。在DDPG动作网络中,通过残差结构引出从神经网络浅层到深层的分支结构,能够克服由于智能体动作空间被约束导致的梯度更新缓慢和梯度消失问题,保证了在动作网络梯度更新的过程中,梯度范围始终保持在合理区间。该结构进一步提升了MF-DDPG算法性能与PID控制的稳定性,有效提高了本文减振控制问题方案的可靠性。为了验证MF-DDPG算法用于主动减振系统的控制性能,论文首先分别基于一阶和二阶典型PID控制系统设计了一系列实验对算法进行了验证。在上述两种系统上,嵌入残差结构的MF-DDPG改进算法性能表现优异,在保证了PID控制器输出稳定性的同时,相比同类PID参数自适应整定算法,在性能上提升了16%-30%。此外,本文在单自由度主动减振仿真系统以及等效六自由度Stewart减振数字样机上对减振算法开展了实验验证,针对减振系统的减振性能曲线、PID跟踪误差、位移传递比等关键指标进行了分析。实验结果表明,嵌入残差结构的MF-DDPG控制方案能够在保证PID控制器稳定性的前提下,有效提升不同减振系统的减振性能,与领域内同类算法相比,隔振水平提升30%-50%以上,能够有效实现稳定可控的智能减振,为变化振动激励输入下的多自由度主动减振控制提供可用的技术支持。