本研究提出了一种结构引导的统一双重策略深度强化学习算法(SUDO-DRL),旨在提高多设备、多信道系统中的调度效率。该算法结合了政策训练的稳定性与非政策方法的样本效率,显著提升了系统性能,适应了大规模调度需求。
完成下面两步后,将自动完成登录并继续当前操作。