小红花·文摘

该研究介绍了多个多模态评估基准，如MMT-Bench和MLLM-Bench，旨在评估大规模视觉-语言模型（LVLM）在多模态任务中的能力。研究指出现有模型在视觉理解和内容偏见方面的不足，并提出了改进方案，强调了开发更强大模型的必要性。