小红花·文摘

本研究提出了一种结构引导的统一双重策略深度强化学习算法（SUDO-DRL），旨在提高多设备、多信道系统中的调度效率。该算法结合了政策训练的稳定性与非政策方法的样本效率，显著提升了系统性能，适应了大规模调度需求。