小红花·文摘

本文探讨了视觉语言模型在视觉算术（如物体计数和长度比较）中的不足，提出了一种后训练策略CogAlign，显著提升了模型在相关任务上的表现，平均提高4.6%的CHOCOLATE和2.9%的MATH-VISION成绩，同时减少60%的训练数据。

BriefGPT - AI 论文速递 ·

本文提出了一种基于词汇层面masking的后训练策略，旨在解决大规模神经语言模型的时间通用性问题。研究表明，该策略在多个预训练模型和数据集上优于传统训练方法，尤其在文本分类任务中表现突出。通过量化和交叉熵损失训练Chronos模型，评估结果显示其在新数据集上具有良好的零样本性能，简化了预测流程。

BriefGPT - AI 论文速递 ·