关键词:
连续搅拌反应釜
温度控制
神经网络
A3C算法
事件触发控制
强化学习
摘要:
连续搅拌反应釜(Continuous Stirred Tank Reactor,CSTR)是一种在石油和化学工业中应用最为广泛的装置,在化工、生物和医药等领域有着广泛的应用。它具有结构简单、操作方便、反应效率高等优点,可以实现连续生产,提高生产效率和产品质量。连续搅拌反应釜的反应通常是放热反应或吸热反应,需要对反应温度进行精准的控制,但由于反应物料流动速度较快,温度控制困难,可能导致反应效率的降低和产物的质量下降,因此,对于反应器的温度控制问题,一直以来都是众多专家和学者关注的焦点。在控制器不能准确地控制釜中的温度时,许多企业都会使用手动控制。然而,这样的控制方法会使人力成本大幅上升,浪费资源,事半功倍,甚至还可能产生严重的安全隐患和现场事故。反应器的温度很难控制的原因,不仅仅在于反应过程的吸热、放热,还在于受到了环境的影响,或者是受到了外界扰动等不确定性因素的影响,从而会使得CSTR系统表现出了强非线性、大时滞、强耦合等特点,而这些特点导致反应釜模型难于建立或精确度不高,使得系统温度难以控制,给现场控制带来很大困难。本文以石油工业中连续搅拌反应釜反应时的生产过程为例,以国内外专家学者对CSTR模型和控制方法的研究为基础,运用机理建模的方法,构建CSTR模型,并通过结合A3C强化学习、神经网络和事件触发控制方法对CSTR系统设计控制策略,围绕CSTR系统的建模和温度控制问题开展研究。本文的主要研究内容如下:(1)建立CSTR反应过程中的机理模型,选择A3C强化学习方法作为CSTR温度控制方法。通过分析CSTR的基本结构、工作原理和建模分析,了解CSTR的工作原理和特性,选取反应釜温度控制的关键因素,利用CSTR各参数(如进料浓度、进料温度、冷剂温度等等)之间的机理关系,提出一种机理建模的模型建立方法。通过了解强化学习发展历史,对比分析policy-based、value-based、AC、A2C和A3C等方法的优劣势,选择A3C强化学习方法作为CSTR智能温度控制方法,对CSTR系统进行温度控制。(2)利用强化学习实现CSTR温度控制。通过对环境模型、全局网络、线程网络、交互机制和系统温度控制实现进行详细介绍,充分了解全局网络、线程网络和交互机制的原理,对CSTR系统进行温度控制。仿真实验结果表明,A3C算法可以较好的实现CSTR温度控制,且实验时间较短且稳定,拥有较好的全局性,但仍存在计算量大和消耗资源方面的问题。(3)采用事件触发的方式解决了A3C算法对资源的占用。首先通过了解事件触发控制的原理及发展,了解事件触发机制,介绍事件触发A3C算法的模块,确定事件触发的条件,设计了基于事件触发的A3C算法的控制框架;这类控制策略只在违反一定规则时才会采样,而全局网络和线程网络只有在事件触发时才会更新,从而完成系统采样,其余时间系统不采样,全局网络和线程网络的更新保持不变。仿真结果表明,基于事件触发的A3C算法能够极大地减少系统的采样次数,降低系统的通信开销,降低系统的计算开销,从而降低系统的资源消耗。