混合偏好:为人类与人工智能反馈学习进行实例路由
发表于: 。本研究解决了直接收集人类偏好成本高、耗时长和变异性大的问题。作者提出了一种路由框架,通过结合人类和语言模型(LM)的输入,优化了偏好实例的选择。这种新方法显著提升了奖励模型的性能,为偏好收集的有效性和准确性带来了潜在影响。
本研究解决了直接收集人类偏好成本高、耗时长和变异性大的问题。作者提出了一种路由框架,通过结合人类和语言模型(LM)的输入,优化了偏好实例的选择。这种新方法显著提升了奖励模型的性能,为偏好收集的有效性和准确性带来了潜在影响。