基于深度强化学习的智能光路优化方案

(整期优先)网络出版时间:2024-03-11
/ 2

基于深度强化学习的智能光路优化方案

耿晨雨 吴聪聪 陶振 张静 张敏

(中国电信安徽分公司,合肥 230031)

摘要: 随着光通信网络的迅猛发展,提高网络性能和效率的需求日益迫切。本文提出了一种基于深度强化学习(DRL)的智能光路优化方案,旨在通过学习网络拓扑和光信号路径的性能,实现在光通信网络中动态调整光路以维持足够的光功率。首先,定义了包括网络拓扑、光信号传输路径和设备状态在内的状态空间,并设计了相应的动作空间。通过建立深度强化学习模型,智能选择动作,以优化光信号传输。训练过程中采用奖励函数来评估每个动作的效果,以最大化累积奖励。该方案在网络中检测到光功率过低时,能够迅速、自适应地重新规划光路,确保信号在网络中的传输过程中保持足够的功率。所提方案为光通信网络的性能提升提供了一种创新的解决方案,为未来智能光通信系统的发展奠定了基础。

关键词:深度强化学习;智能光路优化;运营商

0 引言

在当今信息时代,随着云计算、大数据、物联网等技术的蓬勃发展,网络数据流量呈现出爆发式增长的趋势。作为网络基础设施的重要组成部分,运营商传输系统承担着连接用户与服务提供商的关键任务。然而,传统的运营商传输系统在应对日益增长的数据流量、提高网络性能和可靠性以及降低成本方面面临着巨大挑战。

为了应对这一挑战,人工智能技术应运而生,尤其是深度强化学习作为人工智能领域的前沿技术之一,具有在复杂环境中进行决策和优化的能力。基于深度强化学习的智能算法能够通过与环境的交互学习,逐步优化传输网络的光路配置,提高网络的性能和效率。

本论文旨在探讨基于深度强化学习的传输系统智能光路优化方案。通过结合传统的网络技术和前沿的人工智能技术,将深度强化学习技术引入传输系统的光路优化过程中,通过模拟和训练智能代理来实现网络的自动化优化,从而提高网络的性能、可靠性和节能性,降低运营成本,为运营商提供更加可持续和更具竞争力的网络解决方案。

1 传统故障诊断系统

传统的运营商传输系统智能光路优化方案通常是基于规则和静态算法的。在这种方案中,工作人员根据经验和先前的网络数据,通过预先定义的规则和算法来配置和优化光路。这可能涉及到手动设置参数、路由表的设计、负载均衡以及基于阈值和阈值策略的决策等。这些方案的主要特点是静态、固定且缺乏智能化,无法适应网络环境的动态变化和复杂性。

2 深度强化学习模型

本文介绍了一种基于深度强化学习的传输系统智能光路优化方案,该方案智能化更高且自适应性强。通过深度强化学习算法,系统可以根据实时的网络状态和环境变化,动态地学习和调整光路配置,以实现网络的优化和性能提升。这种方案不再依赖于静态规则,而是通过与环境的交互学习,自主地进行决策和优化,从而更好地适应复杂多变的网络环境。

3基于深度强化学习的智能光路优化方案

3.1 马尔科夫决策模型

在深度强化学习中,马尔可夫决策过程(MDP)被广泛应用于描述智能体与环境之间的交互过程,MDP的要素与传统的强化学习相同,包括状态空间、动作空间、奖励函数和状态转移概率。

图1 MDP模型

3.2 贝尔曼方程

   贝尔曼方程是深度强化学习中的核心方程之一,用于描述价值函数之间的关系,从而指导智能体在MDP中做出最优决策。该方程基于马尔可夫性质,表达了当前状态的价值与下一状态的价值之间的关系。

其中,为最优动作价值函数,学习到就可以用它评估当前状态下每一个动作的好坏,从而选择最优动作。

3.3智能光路优化方案构建

1问题定义与建模,优化目标为最小化传输时延

2状态空间与动作空间的定义,状态空间包括网络拓扑信息、链路负载信息、链路时延等,动作空间为选择光路路由、调整光信号功率等

3奖励函数,时延越小奖励越高

4深度强化学习模型的选择与设计

算法选择:选择适合连续动作空间的深度强化学习算法,DDPGDeep Deterministic Policy Gradient)算法如图2所示

2DDPG算法框架图

网络结构设计:设计Actor-Critic结构的神经网络,其中Actor网络用于输出动作策略,Critic网络用于评估动作的价值。DDPG 算法网络结构图如图3所示。

5模型训练与优化

初始化模型参数:初始化ActorCritic网络的参数。

经验回放:使用经验回放技术,从历史经验中学习,增加训练样本的有效性和利用率。

训练模型: 使用采样的数据对深度强化学习模型进行训练,优化网络参数,使其逐渐学会最小化传输时延的策略。

6模型评估与调优

模型评估:使用验证集数据对训练好的模型进行评估,检查传输时延的减少情况。

调优策略:根据评估结果,对模型进行调优,包括调整神经网络结构、超参数调整等。

3DDPG算法网络结构图

3.4性能检查

定义MSE为损失函数,并使用梯度度算法更新量子电路和神经网络参数,如下式

其中,Lj为训练标签。

光路优化时延对比表

类别

传统方案

智能方案

光缆故障

30min

15s

硬件老化

10min

40s

软件版本bug

15min

10s

性能故障

25min

50s

尾纤故障

20min

20s

表1  传统方案和智能方案时延对比

4 结束语

在本研究中,我们提出了基于深度强化学习的智能光路优化方案,旨在提升网络性能和效率。应用深度强化学习算法,可以实现对复杂光网络中光路的智能优化,从而使网络更加智能化、高效化和自适应。这一方案的实施为运营商光路优化提供一个完善的解决方案能够显著降低传输时延、提高网络吞吐量、优化资源利用率。

耿晨雨:女,汉族,1998年生,安徽淮北人,硕士研究生,通信工程师,就职于中国电信安徽分公司,研究方向为传输承载网技术。


参考文献:

[1]胡珂.基于深度强化学习的哈特曼传感器标定优化技术研究[D].中国科学院大学,2019.

[2]刘东升,刘彦妮,王黎明等.一种基于深度强化学习的智能体自主决策方法[P].浙江省:CN115482659A,2022.

1