用于 NOMA-URLLC 网络中上行调度的深度强化学习

通过提出一种名为 NOMA-PPO 的新型深度强化学习调度算法，本文解决了无线网络中超可靠低延迟通信（URLLC）的问题，也就是在物联网（IoT）应用中施加的严格约束。该方法通过将 NOMA-URLLC 问题转化为部分可观察马尔可夫决策过程（POMDP）并引入一种代理状态，成功将 POMDP...

本文提出了一种名为NOMA-PPO的新型深度强化学习调度算法，解决了物联网应用中的超可靠低延迟通信问题。该方法将NOMA-URLLC问题转化为POMDP，并引入代理状态，成功将其转化为MDP，并适应了组合动作空间。通过融合先前的知识和贝叶斯策略技术，该方法在3GPP场景中优于传统的多路访问协议和DRL基准，并在各种信道和流量配置下都能有效利用时间相关性，表现出鲁棒的性能。