本文提出了对抗性强化学习方法,通过二人零和博弈自动确定环境参数范围,训练的优化代理更具鲁棒性。在网格世界和三个 MuJoCo 控制环境中验证。
本文介绍了一种新的E2ELR架构,用于训练经济调度问题的优化代理。该架构将深度神经网络与闭式、可微分的修复层结合起来,使用自监督学习进行训练,无需标记的数据和离线解决众多优化问题。在评估时,E2ELR使用经济调度来优化能量和储备,结果表明,自监督的E2ELR实现了最先进的性能,在优化差距方面优于其他基线至少一个数量级。
完成下面两步后,将自动完成登录并继续当前操作。