通过人类反应时间增强基于偏好的线性赌徒
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案,以促进LLMs与人类偏好的一致性。
🎯
关键要点
- 基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好一致的关键。
- 高质量的人类偏好数据在RLHF实施中构成了昂贵的瓶颈。
- 需要更好和适应性更强的数据收集策略。
- 将RLHF构建为具有提示作为上下文的偏好赌博问题。
- 随机均匀选择提示收集偏好数据会导致策略产生次优性差距。
- 提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现样本效率。
- 在给定采样预算T的情况下,APO学得的策略的次优性差距为O(1/√T)。
- 提出了一种计算高效的APO的批处理版本,并在实践中评估其性能。
- 实验评估验证了APO作为RLHF数据收集的样本效率和实用性解决方案。
- APO以成本有效且可扩展的方式促进LLMs与人类偏好的一致性。
➡️