探索多模态大语言模型中的响应不确定性:在误导场景下的实证评估
大语言模型在自然语言处理任务中表现优异,但现有的不确定性量化方法在长文本生成中存在局限。我们提出了Luq,一种针对长文本的不确定性量化方法,发现其在准确性相关性上优于现有方法。通过Luq,我们分析了大语言模型的响应信心及其与事实性的关系,发现其在生成罕见事实时缺乏信心。为提高响应的事实准确性,我们提出了Luq-Ensemble方法,通过集成多个模型的响应,显著提升了事实性表现。
原文中文,约400字,阅读约需1分钟。