本研究提出MMLA基准测试,针对多模态大型语言模型在认知级语义理解方面的不足。分析结果显示,模型的准确率仅为60%~70%,表明其在复杂语言理解上仍存在局限,为未来研究提供了基础。
完成下面两步后,将自动完成登录并继续当前操作。