小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了VERI（视觉紧急识别数据集），用于评估视觉语言模型在安全关键情境中的可靠性。尽管模型在真实紧急事件识别中表现良好，但在安全场景下的误报率高达31-96%，揭示了其在视觉误导场景中的过度解读问题，强调了提升安全评估的重要性。

宁可安全也不冒险？视觉语言模型在视觉紧急识别中的过度反应问题

BriefGPT - AI 论文速递 ·

本研究提出了“误导性图表问答基准”，用于评估多模态大语言模型识别误导性图表的能力。结果表明，现有模型在识别视觉误导方面存在局限性，并提出了新方法以提高解读准确性，为理解误导性图表提供了基础。

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

BriefGPT - AI 论文速递 ·