From Uncertainty to Trust: Enhancing the Reliability of Vision-Language Models through Uncertainty-Guided Discard Decoding

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种丢弃解码方法,旨在解决大型视觉语言模型在多模态任务中对视觉输入的误解,显著降低幻觉现象,提高输出的可靠性和质量。

🎯

关键要点

  • 本研究提出了一种丢弃解码方法,旨在解决大型视觉语言模型在多模态任务中对视觉输入的误解。
  • 该方法显著降低了幻觉现象,提高了输出的可靠性和质量。
  • 大型视觉语言模型在多模态任务中表现出色,但容易误解视觉输入,导致不可靠的输出。
  • 丢弃解码方法通过量化视觉标记的不确定性,并在推理时对不确定标记进行选择性遮罩。
➡️

继续阅读