保守的上下文强盗:超越线性表示
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了保守上下文强盗(CB)的概念,以解决序列决策中的安全问题。算法C-SquareCB和C-FastCB在非线性臂成本下高概率满足安全约束,表现优于现有基线。
🎯
关键要点
- 本研究提出了保守上下文强盗(CB)的概念。
- 研究解决了序列决策中的安全问题。
- 代理的策略需最小化遗憾并满足安全约束。
- 提出了两种算法:C-SquareCB和C-FastCB。
- 这两种算法在非线性臂成本下高概率满足安全约束。
- 算法在实际数据上显著优于现有基线。
🏷️
标签
➡️