FlagVNE: 网络资源分配的灵活且可普适的强化学习框架

在本研究中,我们提出了一种名为 FlagVNE 的灵活且具有普适性的虚拟网络嵌入的强化学习框架,通过设计双向基于动作的马尔可夫决策过程模型,使用层次解码器来生成自适应的动作概率分布,并采用元强化学习的训练方法和课程计划策略来解决动作空间扩展和泛化问题,进而提高解决方案空间的探索灵活性和训练效率,实验证明了 FlagVNE 在多个关键指标上的有效性。

相关推荐 去reddit讨论