小红花·文摘

本研究提出V$^2$R-Bench基准框架，以评估大型视觉语言模型（LVLM）在视觉变化（如位置、尺度、方向和上下文）下的鲁棒性。结果表明，即使是表现优秀的模型在简单物体识别任务中也存在不足，揭示了其架构设计的缺陷，强调未来设计需进行创新。