衡量大型语言模型的短期事实性

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

大型语言模型在开放主题的事实查询中常出现错误。研究提出了一种名为SAFE的方法,通过多步推理评估长篇回复的事实准确性。实验证明,SAFE在16k个事实集上超越人类标注者,且成本低20倍。基准测试显示,较大模型通常表现更佳。

🎯

关键要点

  • 大型语言模型在开放主题的事实查询中常出现错误。

  • 研究提出了一种名为SAFE的方法,通过多步推理评估长篇回复的事实准确性。

  • 使用GPT-4生成了一个包含38000个问题的长篇事实测试集。

  • SAFE方法将长篇回复分解为单个事实,并通过搜索查询验证其准确性。

  • 扩展F1分数作为评估长篇事实性的聚合度量标准,平衡准确率和召回率。

  • 实证研究表明,SAFE在16k个事实集上超越人类标注者,达成72%的一致性。

  • SAFE在100个不一致案例中赢得了76%的情况。

  • SAFE的成本比人类标注者低20倍。

  • 基准测试显示,较大语言模型通常表现更佳。

➡️

继续阅读