基于偏好引导的反射采样以调整语言模型
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案,以促进LLMs与人类偏好的一致性。
🎯
关键要点
- 基于人类反馈的强化学习(RLHF)是大型语言模型(LLMs)与人类偏好一致的关键。
- 高质量的人类偏好数据在RLHF实施中构成了昂贵的瓶颈。
- 需要更好和适应性更强的数据收集策略。
- 将RLHF构建为具有提示的偏好赌博问题,随机均匀选择提示会导致次优性差距。
- 提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现样本效率。
- 在给定采样预算T的情况下,APO学得的策略的次优性差距为O(1/√T)。
- 提出了一种计算高效的APO的批处理版本,并评估其性能。
- 实验评估验证了APO作为RLHF数据收集的样本效率和实用性解决方案。
➡️