小红花·文摘

本研究提出MMLA基准测试，针对多模态大型语言模型在认知级语义理解方面的不足。分析结果显示，模型的准确率仅为60%~70%，表明其在复杂语言理解上仍存在局限，为未来研究提供了基础。