HelpSteer2-Preference: Enhancing Ratings with Preferences
原文英文,约100词,阅读约需1分钟。发表于: 。本研究解决了现有评价模型在数据格式不兼容下造成的训练效果差异问题。通过在HelpSteer2数据集中添加偏好注释以补充现有评分,首次对Bradley-Terry和回归模型进行了公平比较,并提出了一种新颖的结合这两种模型的奖励建模方法。实验表明,基于该方法调优的模型在多个奖励模型中表现优异,显示出显著的效果和潜在的应用价值。
本研究解决了数据格式不兼容导致的模型训练差异问题。通过在HelpSteer2数据集中添加偏好注释,首次公平比较了Bradley-Terry和回归模型,并提出结合两者的新方法。实验结果显示,该方法调优的模型在多个奖励模型中表现优异,具有显著效果和应用潜力。