小红花·文摘

本研究提出了RM-Bench基准，解决奖励模型评估中的细微内容变化和风格偏见问题。评估近40个模型，结果显示在风格偏见下平均性能仅为46.6%，表明有很大改进空间，为提升语言模型对齐效率提供了参考。