本研究提出了RM-Bench基准,解决奖励模型评估中的细微内容变化和风格偏见问题。评估近40个模型,结果显示在风格偏见下平均性能仅为46.6%,表明有很大改进空间,为提升语言模型对齐效率提供了参考。
完成下面两步后,将自动完成登录并继续当前操作。