本文介绍了一种名为“链式草图”(CoS)的方法,旨在提高视觉模型在全球推理任务中的学习效率。研究发现,现有的大型视觉模型和多模态语言模型在这些任务上表现不佳。CoS通过将复杂任务分解为中间视觉步骤,帮助模型更好地学习。同时,引入的“归纳CoS”结构在小模型中也能实现更好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。