本研究提出V$^2$R-Bench基准框架,以评估大型视觉语言模型(LVLM)在视觉变化(如位置、尺度、方向和上下文)下的鲁棒性。结果表明,即使是表现优秀的模型在简单物体识别任务中也存在不足,揭示了其架构设计的缺陷,强调未来设计需进行创新。
完成下面两步后,将自动完成登录并继续当前操作。