带有延迟反馈的强化学习优化中的改进后悔度

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种在线牛顿步骤算法,适用于广泛实际损失函数。研究了二阶赌博算法在具有仿射结构的损失函数中的应用。解决了赌博LQR/LQG问题。证明了BCO与内存问题更难,给出了遗憾界的下界。

🎯

关键要点

  • 介绍了一种在线牛顿步骤算法,适用于κ-凸的凸函数。
  • 该算法在广泛实际损失函数中具有最优的遗憾界。
  • 研究了二阶赌博算法在具有仿射结构的损失函数中的应用。
  • 解决了完全敌对噪声模型下的赌博LQR/LQG问题。
  • 证明了BCO与内存问题更难,导出了T^{2/3}遗憾界的下界。
🏷️

标签

➡️

继续阅读