大型语言模型作为评估者的认知偏差基准测试

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

研究发现,语言模型在文本质量评估中存在偏见,不适合作为评估器。机器偏好与人类不一致,因此LLMs可能不能用于自动注释。

🎯

关键要点

  • 大型语言模型(LLMs)在文本质量评估中存在偏见,不适合作为评估器。
  • 研究汇集了15个不同规模的LLMs,通过系统偏好排序评估输出响应。
  • 引入了认知偏差基准(CoBBLEr)来衡量LLM评估输出中的六种认知偏差。
  • 发现LLMs在评估中展示出强烈的偏见基准,平均偏见程度为40%。
  • 人类和机器偏好之间的相关性较低,平均Rank-Biased Overlap(RBO)得分为49.6%。
  • 根据研究结果,LLMs可能无法用于与人类偏好对齐的自动注释。
➡️

继续阅读