在未知线性约束下,使用拉格朗日方法进行探索性学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

在上下文足够随机的情况下,贪心算法能够实现速率最优。新提出的Greedy-First算法通过上下文和奖励来决定策略,证明其在无假设条件下也具备速率最优性,模拟结果显示其优于现有的上下文bandit算法。

🎯

关键要点

  • 在上下文足够随机的情况下,贪心算法能够实现速率最优。

  • 新提出的Greedy-First算法通过上下文和奖励来决定策略。

  • Greedy-First算法在无假设条件下也具备速率最优性。

  • 模拟结果显示Greedy-First优于现有的上下文bandit算法,如Thompson sampling和UCB。

  • Greedy-First成功地减少了探索。

➡️

继续阅读