小红花·文摘

本文提出了对抗性强化学习方法，通过二人零和博弈自动确定环境参数范围，训练的优化代理更具鲁棒性。在网格世界和三个 MuJoCo 控制环境中验证。

有界理性曲线下的鲁棒对抗强化学习

BriefGPT - AI 论文速递 ·

本文介绍了一种新的E2ELR架构，用于训练经济调度问题的优化代理。该架构将深度神经网络与闭式、可微分的修复层结合起来，使用自监督学习进行训练，无需标记的数据和离线解决众多优化问题。在评估时，E2ELR使用经济调度来优化能量和储备，结果表明，自监督的E2ELR实现了最先进的性能，在优化差距方面优于其他基线至少一个数量级。

E2Net: 弹性扩展网络的资源高效连续学习

BriefGPT - AI 论文速递 ·