Apple Machine Learning Research ·

SO-Bench：多模态大语言模型的结构输出评估

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文通过SO-Bench基准测试评估多模态大语言模型（MLLMs）在视觉结构输出能力上的表现，涵盖UI界面、自然图像、文档和图表等领域。研究发现，现有模型在准确预测符合预定义数据模式的输出方面存在不足，强调了改进多模态结构推理的必要性。

🎯

🔎

随着多模态大语言模型（MLLMs）在实际应用中的普及，输出不仅需要准确，还必须符合预定义的数据模式。这一需求在用户界面、自然图像等领域尤为重要，反映了技术在复杂环境中应用的挑战。

SO-Bench基准测试通过涵盖多种视觉领域，填补了当前缺乏系统评估的空白。它不仅提供了对现有模型的全面评估，还为未来的模型改进提供了方向，强调了多模态结构推理的必要性。

研究中进行的训练实验显示，通过针对性的训练可以显著提升模型的结构输出能力。这一发现为开发更高效的多模态模型提供了实践依据，值得关注的是，如何将这些改进应用于实际场景。

❓

SO-Bench基准测试旨在评估多模态大语言模型在视觉结构输出能力上的表现，确保输出不仅正确，还符合预定义的数据模式。

SO-Bench基准测试涵盖了UI界面、自然图像、文档和图表等四个视觉领域。

现有模型在预测准确且符合模式的输出方面存在持续差距，显示出在多模态结构推理上需要改进。

SO-Bench基于超过6.5K多样化的JSON模式和1.8K经过人工验证的图像-模式对构建而成。

训练实验的目的是大幅提升模型的结构输出能力，以改善多模态大语言模型的表现。

研究计划将SO-Bench基准测试向社区开放，以便更多研究者能够使用和评估该基准。

🏷️