GINO-Q:学习一种渐近最优的索引策略用于无休止多臂老虎机

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

通过创新的算法解决了周期性不安定性多臂赌博机问题,最大化敌对奖励并满足约束条件。算法保证了约根号T的遗憾界。

🎯

关键要点

  • 开发了一种新颖的强化学习算法
  • 解决周期性不安定性多臂赌博机问题
  • 使用创新的偏置对抗性奖励估计器
  • 采用低复杂度指标策略
  • 最大化总的敌对奖励
  • 确保每个决策阶段满足瞬时激活约束条件
  • 算法保证了约根号T的遗憾界
  • 首次在具有挑战性的设置中实现
🏷️

标签

➡️

继续阅读