本文探讨了视觉语言模型在视觉算术(如物体计数和长度比较)中的不足,提出了一种后训练策略CogAlign,显著提升了模型在相关任务上的表现,平均提高4.6%的CHOCOLATE和2.9%的MATH-VISION成绩,同时减少60%的训练数据。
完成下面两步后,将自动完成登录并继续当前操作。