小红花·文摘

强化学习通过人的反馈来对齐语言模型，但获取高质量的人类偏好标签是困难的。研究发现，RLAIF和RLHF在改进效果上相似。在摘要任务中，人类评估员更喜欢RLAIF和RLHF生成的结果，并且在评分这两种摘要时，人类选择它们的比例相等。研究结果表明，RLAIF能够达到与人类水平相当的性能，并且解决了RLHF的可扩展性限制。