用于 NOMA-URLLC 网络中上行调度的深度强化学习
本文提出了一种名为NOMA-PPO的新型深度强化学习调度算法,解决了物联网应用中的超可靠低延迟通信问题。该方法将NOMA-URLLC问题转化为POMDP,并引入代理状态,成功将其转化为MDP,并适应了组合动作空间。通过融合先前的知识和贝叶斯策略技术,该方法在3GPP场景中优于传统的多路访问协议和DRL基准,并在各种信道和流量配置下都能有效利用时间相关性,表现出鲁棒的性能。
原文中文,约400字,阅读约需1分钟。