本研究提出了VERI(视觉紧急识别数据集),用于评估视觉语言模型在安全关键情境中的可靠性。尽管模型在真实紧急事件识别中表现良好,但在安全场景下的误报率高达31-96%,揭示了其在视觉误导场景中的过度解读问题,强调了提升安全评估的重要性。
本研究提出了“误导性图表问答基准”,用于评估多模态大语言模型识别误导性图表的能力。结果表明,现有模型在识别视觉误导方面存在局限性,并提出了新方法以提高解读准确性,为理解误导性图表提供了基础。
完成下面两步后,将自动完成登录并继续当前操作。