通过人类反应时间增强基于偏好的线性赌徒

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案,以促进LLMs与人类偏好的一致性。

🎯

关键要点

  • 基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好一致的关键。
  • 高质量的人类偏好数据在RLHF实施中构成了昂贵的瓶颈。
  • 需要更好和适应性更强的数据收集策略。
  • 将RLHF构建为具有提示作为上下文的偏好赌博问题。
  • 随机均匀选择提示收集偏好数据会导致策略产生次优性差距。
  • 提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现样本效率。
  • 在给定采样预算T的情况下,APO学得的策略的次优性差距为O(1/√T)。
  • 提出了一种计算高效的APO的批处理版本,并在实践中评估其性能。
  • 实验评估验证了APO作为RLHF数据收集的样本效率和实用性解决方案。
  • APO以成本有效且可扩展的方式促进LLMs与人类偏好的一致性。
➡️

继续阅读