大语言模型评估中的黑箱不确定性量化方法
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了在大语言模型(LLM)评估中量化不确定性的问题,尤其是LLM-as-a-Judge方法的应用挑战。我们提出了一种新颖的方法,通过分析生成评估与可能评分之间的关系来量化不确定性,证明了该方法与评估准确性之间的强相关性,有助于提升LLM评估的可靠性和一致性。
大语言模型在长文本生成中表现优异,但现有不确定性量化方法有限。研究引入了Luq,一种专为长文本设计的不确定性量化方法,效果优于现有基准。Luq分析显示,模型在生成罕见事实时信心不足,而准确模型如GPT-4会拒绝不确定问题。提出的Luq-Ensemble方法通过集成多个模型响应,选择不确定性最小的答案,提高了事实准确性。