关键词:
路由优化
深度强化学习
注意力机制
双向长短期记忆网络
摘要:
随着5G、区块链、人工智能、边缘计算的发展。未来需要更高效、更可靠、更安全、更开放和更灵活的网络。路由作为网络传输过程中的核心,对整个网络的性能起着至关重要的作用。传统的路由协议算法如RIP、OSPF在面对网络流量的指数级增长以及不同服务需求的情况下存在收敛慢、平均时延高等一系列问题。为了解决这些问题,在路由算法中通过利用深度强化学习的强大能力,使网络路由可以实现自主学习和优化,从而更好地适应复杂的网络环境和变化的网络流量需求。在此背景下,本文分析了传统路由算法发展过程中遇到的瓶颈,采用了深度强化学习算法作为路由优化的方法,并对其进行优化。本文的主要工作和贡献如下:1.本文提出了一种集中式路由控制机制,设计了具备三层逻辑结构的智能路由架构,并在路由控制层中引入深度强化学习算法,弥补传统路由算法无法从过去经验中学习的缺陷。实现了根据网络性能指标动态按需生成路由策略,从而更加合理的分配网络资源。2.对于连续状态空间优化问题,基于上述控制机制设计了一种路由优化算法DDPGOR(Deep Deterministic Policy Gradient On Routing)算法。并对其进行优化,针对DDPGOR算法的不足,采用更优算法模型TD3,一种异步策略算法,设计TD3OR(Twin Delayed Deep Deterministic Policy Gradient On Routing)算法对路由进行优化。仿真结果表明,DDPGOR和TD3OR均能够有效提高收敛性和稳定性,相较于传统路由算法大幅减少端到端时延,提高吞吐量和链路利用率。同时,TD3OR算法作为DDPGOR算法的优化算法,其各项性能指标均优于DDPGOR算法。3.网络中周期性流量占据主要部分,为了实现对未来可能出现的周期性流量进行有效应对,设计了一种DRDPGOR(Deep Recurrent Deterministic Policy Gradient On Routing)算法,该算法在深度确定性策略梯度算法中引入长短期神经网络并加入注意力机制预测网络流量从而制定针对周期性流量的路由策略。同时为了更进一步优化模型,采用双向长短期神经网络替换原策略网络中的全连接网络设计一种Bi-DRDPGOR(Bidirectional Long Short-Term Memory DRDPGOR)算法。仿真结果表明,两种算法在周期性流量特征下具有更低的网络时延。