Vickrey反馈:基于人类反馈的强化学习数据构建的成本效益 发表于:2024-09-27T00:00:00Z。 本文解决了人类反馈强化学习(RLHF)的成本效率问题。研究提出了一种拍卖机制来优化偏好数据的收集效率,从而提高成本效益,同时保持模型性能。实验结果表明,该机制能有效集中高质量反馈,提升RLHF的经济效益。