BLEUBERI:BLEU在遵循指令的奖励上出乎意料地有效

📝

内容提要

本研究解决了大型语言模型(LLMs)与人类偏好的对齐问题,特别是训练奖励模型所需的高成本和数据需求。文章提出BLEUBERI方法,通过BLEU作为奖励函数进行强化学习,证明其在多个指令遵循基准上与传统奖励模型相当,且生成的输出在事实基础上更具优势。此外,这一发现表明,字符串匹配指标可以作为奖励模型的有效替代方案。

➡️

继续阅读