与人类判断相一致:大型语言模型评估者中的成对优先关系的作用

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,人类对错误不敏感,更倾向于支持自己观点的回答。高级语言模型注重正确性、清晰度和无害性。语言模型的偏好通常相似,无论训练方法如何。评估可以被操纵,与评委偏好一致可提高评分。这种调整对评分有重要影响。

🎯

关键要点

  • 研究发现人类对错误不敏感,倾向于支持自己观点的回答。
  • 高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。
  • 相似大小的语言模型表现出类似的偏好,无论训练方法如何。
  • 通过对齐进行微调并不显著改变仅预训练的语言模型的偏好。
  • 评估可以被操纵,与评委偏好一致可提高评分,注入评委不喜欢的属性将降低评分。
  • 这种战略性调整对评分有重要影响,例如在 MT-Bench 上高达 0.59 分,在 AlpacaEval 2.0 上高达 31.94 分。
➡️

继续阅读