本文介绍了一种名为“链式草图”(CoS)的方法,旨在提高视觉模型在全球推理任务中的学习效率。研究发现,现有的大型视觉模型和多模态语言模型在这些任务上表现不佳。CoS通过将复杂任务分解为中间视觉步骤,帮助模型更好地学习。同时,引入的“归纳CoS”结构在小模型中也能实现更好的泛化能力。
本研究提出了一种“视觉临时记事本”方法,通过将复杂任务分解为简单子任务,提升现代视觉模型在全球推理任务中的效率,并展示了其在一般化能力上的优势。
完成下面两步后,将自动完成登录并继续当前操作。