保守的上下文强盗:超越线性表示

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了保守上下文强盗(CB)的概念,以解决序列决策中的安全问题。算法C-SquareCB和C-FastCB在非线性臂成本下高概率满足安全约束,表现优于现有基线。

🎯

关键要点

  • 本研究提出了保守上下文强盗(CB)的概念。
  • 研究解决了序列决策中的安全问题。
  • 代理的策略需最小化遗憾并满足安全约束。
  • 提出了两种算法:C-SquareCB和C-FastCB。
  • 这两种算法在非线性臂成本下高概率满足安全约束。
  • 算法在实际数据上显著优于现有基线。
➡️

继续阅读