清单优于奖励模型，用于对齐语言模型

Apple Machine Learning Research ·

我们提出了一种“基于清单反馈的强化学习”（RLCF）方法，通过提取指令中的清单并评估响应的满足程度来计算奖励。RLCF在五个基准测试中表现优异，显著提升了模型的指令遵循能力，证明清单反馈是改善语言模型的重要工具。

基准测试强化学习指令遵循模型清单反馈语言模型

原文英文，约200词，阅读约需1分钟。