大型语言模型作为评估者的认知偏差基准测试
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
研究发现,语言模型在文本质量评估中存在偏见,不适合作为评估器。机器偏好与人类不一致,因此LLMs可能不能用于自动注释。
🎯
关键要点
- 大型语言模型(LLMs)在文本质量评估中存在偏见,不适合作为评估器。
- 研究汇集了15个不同规模的LLMs,通过系统偏好排序评估输出响应。
- 引入了认知偏差基准(CoBBLEr)来衡量LLM评估输出中的六种认知偏差。
- 发现LLMs在评估中展示出强烈的偏见基准,平均偏见程度为40%。
- 人类和机器偏好之间的相关性较低,平均Rank-Biased Overlap(RBO)得分为49.6%。
- 根据研究结果,LLMs可能无法用于与人类偏好对齐的自动注释。
➡️