关于具有多臂赌博反馈的激励兼容在线学习中确切真实性的价格:WSU-UX 的遗憾下界

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了带有动作切换代价的敌对多臂赌博机问题,证明了玩家T回合的最小极大后悔度为Θ(T^2/3),并提出了一个多尺度随机游走的新随机化结构,可能对困难的学习问题有帮助。

🎯

关键要点

  • 研究带有动作切换代价的敌对多臂赌博机问题
  • 证明玩家 T 回合的最小极大后悔度为 Θ(T^2/3)
  • 研究其他在线学习领域的开放问题
  • 提出多尺度随机游走的新随机化结构
  • 新结构可能对困难的学习问题有所帮助
➡️

继续阅读