Why Do Vision Language Models Struggle with Visual Arithmetic? Exploring Enhanced Chart and Geometry Understanding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文探讨了视觉语言模型在视觉算术(如物体计数和长度比较)中的不足,提出了一种后训练策略CogAlign,显著提升了模型在相关任务上的表现,平均提高4.6%的CHOCOLATE和2.9%的MATH-VISION成绩,同时减少60%的训练数据。
🎯
关键要点
- 视觉语言模型在视觉算术(如物体计数和长度比较)方面表现不佳。
- 这些能力对于图表理解和几何推理至关重要。
- 提出了一种后训练策略CogAlign,旨在提升模型的表现。
- CogAlign通过训练模型识别视觉变换下的不变属性来实现提升。
- 该策略平均提高了4.6%的CHOCOLATE和2.9%的MATH-VISION成绩。
- 使用CogAlign后,训练数据减少了60%。
➡️