基于状态分离的 SARSA:一种具有恢复奖励的实用顺序决策算法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种新颖的组合性随机贪婪的赌博算法(SGB),用于解决多臂赌博问题。该算法在没有额外信息的情况下,通过观察每个时间步选择的一组臂的联合奖励来进行优化。该算法在单调随机次模性奖励方面实现了较好的性能,并在在线受限社交影响最大化的背景下进行了实证评估。

🎯

关键要点

  • 提出了一种新颖的组合性随机贪婪的赌博算法 (SGB),用于组合多臂赌博问题。
  • 该算法在没有额外信息的情况下,仅观察每个时间步选择的一组臂的联合奖励。
  • SGB 采用优化的随机探索再确认的方法,专门设计用于具有大量基本臂的情景。
  • 与现有方法不同,SGB 仅对未选择的臂进行优化比例的抽样。
  • 算法在单调随机次模性奖励方面实现了 (1-1/e) 的遗憾边界,复杂度为 O(n^(1/3) k^(2/3) T^(2/3) log(T)^(2/3))。
  • 在基数约束 k 方面,SGB 优于最先进的方法。
  • 在在线受限社交影响最大化的背景下进行了实证评估,结果表明 SGB 始终优于其他算法,且随着 k 的增长,性能差距增大。
🏷️

标签

➡️

继续阅读