不完美奖励模型的RLHF能否更高效?基于策略覆盖的视角
📝
内容提要
本研究针对在线人类反馈强化学习(RLHF)中的样本效率问题,探索了利用不完美但相关的奖励模型加速学习的可能性。通过提出一种理论转移学习算法,能够在早期快速适应最佳可用奖励模型,从而实现低遗憾,最终在结构复杂性度量上获得独立于之的$\tilde{O}(\sqrt{T})$遗憾界限。研究结果表明该方法在总结任务中显示了更高的计算效率和有效性。
➡️