从对抗性反馈中的上下文对决强盗问题的近乎最优算法
本文解决了Balseiro等人提出的“交叉学习”设置中的上下文强盗算法设计问题,并提供了一个高效算法,其减悔上界与上下文数量无关。该算法适用于未知值分布下的学习和具有随机行动集合的睡眠强盗问题。算法核心是一种协调学习算法在多个时期执行的新技术,以消除对未知分布的估计和算法执行动作之间的相关性。该技术对其他涉及未知上下文分布估计的学习问题可能具有独立的意义。
原文中文,约300字,阅读约需1分钟。