基于夏普比率引导的主动学习在RLHF中的偏好优化

📝

内容提要

本研究针对收集偏好数据高成本和专家标注困难的问题,提出了一种基于夏普比率的主动学习方法,以有效选择提示和偏好对进行标注。通过梯度评估潜在偏好标注的影响,我们的方法能够在标注结果未知的情况下进行风险评估,实验结果显示该方法在多个语言模型和真实世界数据集上的赢率比基线提高了最多5%。

➡️

继续阅读