ConVis:对比解码与幻觉可视化以减轻多模态大型语言模型中的幻觉

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究人员提出了一种名为RITUAL的方法,用于增强大型视觉语言模型对幻觉的鲁棒性。该方法通过随机图像变换减少模型产生幻觉性输出的可能性。实验证明,RITUAL在多个物体幻觉基准数据集上优于现有的对比解码方法。

🎯

关键要点

  • 大型视觉语言模型(LVLMs)在理解和生成文本响应方面取得了显著进展。
  • 这些模型常常产生与视觉信息不符的幻觉性输出,影响其可靠性和可信度。
  • 当前的对比解码方法在解决幻觉性输出方面取得了一些进展,但仍面临挑战。
  • 研究提出了一种名为RITUAL的方法,通过随机图像变换增强LVLMs对幻觉的鲁棒性。
  • RITUAL方法旨在通过丰富模型对不同视觉情景的暴露,减少幻觉性视觉解释的可能性。
  • 尽管单独使用转换图像会降低性能,但有策略地实现这些转换可以有效补充原始概率分布。
  • RITUAL与现有对比解码方法兼容,不需要外部模型或昂贵的自反馈机制,具有实际应用价值。
  • 在多个物体幻觉基准数据集上,RITUAL显著优于现有的对比解码方法。
➡️

继续阅读