小红花·文摘

本研究提出了VERI（视觉紧急识别数据集），用于评估视觉语言模型在安全关键情境中的可靠性。尽管模型在真实紧急事件识别中表现良好，但在安全场景下的误报率高达31-96%，揭示了其在视觉误导场景中的过度解读问题，强调了提升安全评估的重要性。