本文通过SO-Bench基准测试评估多模态大语言模型(MLLMs)在视觉结构输出能力上的表现,涵盖UI界面、自然图像、文档和图表等领域。研究发现,现有模型在准确预测符合预定义数据模式的输出方面存在不足,强调了改进多模态结构推理的必要性。
完成下面两步后,将自动完成登录并继续当前操作。