在未知线性约束下,使用拉格朗日方法进行探索性学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
在上下文足够随机的情况下,贪心算法能够实现速率最优。新提出的Greedy-First算法通过上下文和奖励来决定策略,证明其在无假设条件下也具备速率最优性,模拟结果显示其优于现有的上下文bandit算法。
🎯
关键要点
-
在上下文足够随机的情况下,贪心算法能够实现速率最优。
-
新提出的Greedy-First算法通过上下文和奖励来决定策略。
-
Greedy-First算法在无假设条件下也具备速率最优性。
-
模拟结果显示Greedy-First优于现有的上下文bandit算法,如Thompson sampling和UCB。
-
Greedy-First成功地减少了探索。
🏷️
标签
➡️