探索多模态大语言模型中的响应不确定性：在误导场景下的实证评估

本研究解决了多模态大语言模型（MLLMs）在处理误导信息时的响应不确定性问题。我们提出了一种两阶段的方法，针对误导性信息的采集和分析，以建立多模态不确定性基准（MUB）。研究发现所有MLLMs对误导性指令高度敏感，误导率平均超过86%，通过微调模型显著降低了这一风险。

大语言模型在自然语言处理任务中表现优异，但现有的不确定性量化方法在长文本生成中存在局限。我们提出了Luq，一种针对长文本的不确定性量化方法，发现其在准确性相关性上优于现有方法。通过Luq，我们分析了大语言模型的响应信心及其与事实性的关系，发现其在生成罕见事实时缺乏信心。为提高响应的事实准确性，我们提出了Luq-Ensemble方法，通过集成多个模型的响应，显著提升了事实性表现。

Luq-Ensemble 不确定性量化事实准确性多模态大语言模型长文本