用于 NOMA-URLLC 网络中上行调度的深度强化学习
原文中文,约400字,阅读约需1分钟。发表于: 。通过提出一种名为 NOMA-PPO 的新型深度强化学习调度算法,本文解决了无线网络中超可靠低延迟通信(URLLC)的问题,也就是在物联网(IoT)应用中施加的严格约束。该方法通过将 NOMA-URLLC 问题转化为部分可观察马尔可夫决策过程(POMDP)并引入一种代理状态,成功将 POMDP...
本文提出了一种名为NOMA-PPO的新型深度强化学习调度算法,解决了物联网应用中的超可靠低延迟通信问题。该方法将NOMA-URLLC问题转化为POMDP,并引入代理状态,成功将其转化为MDP,并适应了组合动作空间。通过融合先前的知识和贝叶斯策略技术,该方法在3GPP场景中优于传统的多路访问协议和DRL基准,并在各种信道和流量配置下都能有效利用时间相关性,表现出鲁棒的性能。