💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
本文通过SO-Bench基准测试评估多模态大语言模型(MLLMs)在视觉结构输出能力上的表现,涵盖UI界面、自然图像、文档和图表等领域。研究发现,现有模型在准确预测符合预定义数据模式的输出方面存在不足,强调了改进多模态结构推理的必要性。
🎯
关键要点
- 多模态大语言模型(MLLMs)在实际应用中需要输出不仅正确,还要符合预定义数据模式。
- 目前缺乏系统评估视觉输入上基于模式的信息提取和推理的基准测试。
- 本文通过SO-Bench基准测试全面评估MLLMs的视觉结构输出能力,涵盖UI界面、自然图像、文档和图表等四个视觉领域。
- SO-Bench基于超过6.5K多样化的JSON模式和1.8K经过人工验证的图像-模式对构建。
- 基准测试显示现有模型在预测准确且符合模式的输出方面存在持续差距,强调了改进多模态结构推理的必要性。
- 除了基准测试,研究还进行了训练实验,以大幅提升模型的结构输出能力。
- 计划将SO-Bench基准测试向社区开放。
➡️