小红花·文摘

大视觉语言模型（LVLMs）在医学领域的幻觉测试中表现出较差的稳健性，引发了对这些特定领域模型可靠性的担忧。这项研究提供了评估这些模型的途径。

无参考的幻觉检测方法在大型视觉语言模型中的应用

BriefGPT - AI 论文速递 ·

大视觉语言模型（LVLMs）在医学上下文中容易产生幻觉，对其稳健性的研究有限。医学LVLMs比通用模型更容易产生幻觉，引发对其可靠性的担忧。医学LVLMs需要准确整合医学知识，并保持稳健的推理能力以防止幻觉。

引导医学大型视觉 - 语言模型通过视觉问答诊断病变

BriefGPT - AI 论文速递 ·

大视觉语言模型（LVLMs）在医学上下文中容易产生幻觉，对模型的稳健性提出了担忧。研究引入了医学视觉幻觉测试（MedVH）数据集来评估LVLMs的幻觉。实验结果显示，医学LVLMs在标准医学任务上表现良好，但比通用模型更容易产生幻觉。医学LVLMs需要准确整合医学知识并保持稳健的推理能力以在真实世界应用中有价值。

BEAF：评估视觉语言模型中的幻觉的前后变化

BriefGPT - AI 论文速递 ·

大视觉语言模型（LVLMs）在医学幻觉测试中表现出较差的稳健性，引发了对这些模型可靠性的担忧。医学LVLMs需要准确整合医学知识，并保持稳健的推理能力以防止幻觉。

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

BriefGPT - AI 论文速递 ·

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容。本文介绍了一种名为Visual Contrastive Decoding（VCD）的方法，通过对比原始和失真的视觉输入产生的输出分布，降低物体幻觉问题的影响，确保生成的内容与视觉输入密切相关。实验证明，VCD在不同的LVLM族群中减轻了物体幻觉问题，并在通用LVLM基准测试中表现出色。

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

BriefGPT - AI 论文速递 ·

本文提出了一种评估大视觉语言模型能力的方法，使用大语言模型作为评判者，构建综合的触石视觉对话数据集和整合图像注释，实现对多模态对话质量的直接评估，为大视觉语言模型的评估提供参考。

视觉 - 语言模型能否以第一人称视角思考？

BriefGPT - AI 论文速递 ·

我们提出了一种使用大视觉语言模型评估多模态对话质量的方法。通过构建综合的视觉对话数据集和图像注释，我们能够直接评估大视觉语言模型的能力，为其评估提供参考。

TouchStone: 通过语言模型评估视觉 - 语言模型

BriefGPT - AI 论文速递 ·