M-RewardBench:在多语言环境中评估奖励模型
原文中文,约500字,阅读约需1分钟。发表于: 。本研究针对奖励模型在多语言环境中的评估进行了系统性研究,填补了其在非英语语言中的研究空白。作者构建了首个多语言奖励模型评估基准M-RewardBench,包含对23种不同类型语言的2870个偏好实例的测试,发现英语与非英语语言在模型表现上存在显著差距,同时表明翻译质量和资源丰富性对模型表现有重要影响。
研究探讨了如何从偏好数据中获取奖励模型以优化语言模型,使其更符合人类偏好。文章分析了奖励模型的单调转换和多属性对齐问题。通过Bradley-Terry偏好模型,提出了一种自然的转换选择,强调改进表现较差的输出,减轻欠拟合和奖励欺骗。实验表明,这种方法比未转换方法有显著改进。