小红花·文摘

本文探讨了视觉语言模型在视觉算术（如物体计数和长度比较）中的不足，提出了一种后训练策略CogAlign，显著提升了模型在相关任务上的表现，平均提高4.6%的CHOCOLATE和2.9%的MATH-VISION成绩，同时减少60%的训练数据。