基于偏好引导的反射采样以调整语言模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案,以促进LLMs与人类偏好的一致性。

🎯

关键要点

  • 基于人类反馈的强化学习(RLHF)是大型语言模型(LLMs)与人类偏好一致的关键。
  • 高质量的人类偏好数据在RLHF实施中构成了昂贵的瓶颈。
  • 需要更好和适应性更强的数据收集策略。
  • 将RLHF构建为具有提示的偏好赌博问题,随机均匀选择提示会导致次优性差距。
  • 提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现样本效率。
  • 在给定采样预算T的情况下,APO学得的策略的次优性差距为O(1/√T)。
  • 提出了一种计算高效的APO的批处理版本,并评估其性能。
  • 实验评估验证了APO作为RLHF数据收集的样本效率和实用性解决方案。
➡️

继续阅读