本研究提出了VERI(视觉紧急识别数据集),用于评估视觉语言模型在安全关键情境中的可靠性。尽管模型在真实紧急事件识别中表现良好,但在安全场景下的误报率高达31-96%,揭示了其在视觉误导场景中的过度解读问题,强调了提升安全评估的重要性。
完成下面两步后,将自动完成登录并继续当前操作。