本研究针对当前视觉语言模型在自然图像和人类易解问题中的不足,提出了新的评估基准NaturalBench,包含10000个经人类验证的视觉问答样本。研究发现,现有模型在该基准上表现显著低于人类水平,并通过细致的技能标签分析展示了模型在处理复杂的视听语言能力及存在的偏差。
完成下面两步后,将自动完成登录并继续当前操作。