大语言模型评估中的黑箱不确定性量化方法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

大语言模型在长文本生成中表现优异,但现有不确定性量化方法有限。研究引入了Luq,一种专为长文本设计的不确定性量化方法,效果优于现有基准。Luq分析显示,模型在生成罕见事实时信心不足,而准确模型如GPT-4会拒绝不确定问题。提出的Luq-Ensemble方法通过集成多个模型响应,选择不确定性最小的答案,提高了事实准确性。