在未知线性约束下,使用拉格朗日方法进行探索性学习
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在带有未知线性约束的多臂赌博机模型中的纯探索问题,尤其关注如何识别“r-良好可行策略”。我们提出了一种基于拉格朗日放松的样本复杂度下界的新方法,并开发了两种计算高效的扩展算法LATS和LAGEX,以适应约束条件,实现了在约束依赖常数下的渐近最优样本复杂度上界。
在上下文足够随机的情况下,贪心算法能够实现速率最优。新提出的Greedy-First算法通过上下文和奖励来决定策略,证明其在无假设条件下也具备速率最优性,模拟结果显示其优于现有的上下文bandit算法。