小红花·文摘

本研究探讨了大型视觉语言模型（LVLMs）中的幻觉问题，提出了新的评估基准和数据集，以提高模型的准确性和可靠性。研究发现医学领域的LVLMs更易产生幻觉，并强调了模型在实际应用中的稳健性需求。同时，开发了细粒度评估指标FAITHSCORE，揭示了当前模型在生成内容时的不足，为未来改进提供了方向。

BEAF：评估视觉语言模型中的幻觉的前后变化

BriefGPT - AI 论文速递 ·

该研究评估了大型视觉语言模型（LVLMs）区分人工生成与人类生成图像的能力，发现LVLMs存在偏差且表现不如人类。研究引入了新的自动化基准构建方法，探讨了模型的偏见和稳健性，并提出了改进策略以减少偏见并提高性能。此外，开发了FAITHSCORE指标，用于评估生成内容的忠实度，强调了LVLMs在生成准确插图方面的不足。

Dysca: LVLMs 感知能力评估的动态可扩展基准

BriefGPT - AI 论文速递 ·

本文介绍了FAITHSCORE评估指标，用于衡量大型视觉语言模型（LVLMs）生成答案的忠实度。研究发现，LVLMs在颜色和计数方面表现良好，但在处理长答案和复杂关系时存在困难。为此，提出了改进评估方法和一致性训练方法，以提高模型性能并减少幻觉现象。

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

BriefGPT - AI 论文速递 ·