在未知线性约束下,使用拉格朗日方法进行探索性学习
在上下文足够随机的情况下,贪心算法能够实现速率最优。新提出的Greedy-First算法通过上下文和奖励来决定策略,证明其在无假设条件下也具备速率最优性,模拟结果显示其优于现有的上下文bandit算法。
原文中文,约300字,阅读约需1分钟。
在上下文足够随机的情况下,贪心算法能够实现速率最优。新提出的Greedy-First算法通过上下文和奖励来决定策略,证明其在无假设条件下也具备速率最优性,模拟结果显示其优于现有的上下文bandit算法。