小红花·文摘

本研究解决了数据格式不兼容导致的模型训练差异问题。通过在HelpSteer2数据集中添加偏好注释，首次公平比较了Bradley-Terry和回归模型，并提出结合两者的新方法。实验结果显示，该方法调优的模型在多个奖励模型中表现优异，具有显著效果和应用潜力。