从对抗性反馈中的上下文对决强盗问题的近乎最优算法
原文中文,约300字,阅读约需1分钟。发表于: 。通过创新性对抗反馈的鲁棒情境对决算法,本研究在学习人类反馈中探索大型语言模型的对齐方法,并证明了在存在或不存在创新性对抗反馈的情况下,算法具有接近最优的后悔界限。同时,在各种类型的创新性对抗反馈中,实验结果表明该算法优于现有的对决算法。
本文解决了Balseiro等人提出的“交叉学习”设置中的上下文强盗算法设计问题,并提供了一个高效算法,其减悔上界与上下文数量无关。该算法适用于未知值分布下的学习和具有随机行动集合的睡眠强盗问题。算法核心是一种协调学习算法在多个时期执行的新技术,以消除对未知分布的估计和算法执行动作之间的相关性。该技术对其他涉及未知上下文分布估计的学习问题可能具有独立的意义。