大规模自回归图像模型的可扩展预训练

这篇论文介绍了 AIM，一种根据自回归目标预训练的视觉模型集合。这些模型受到了文本模型的启发，并展现了类似的规模扩展性。重点提到两个关键发现：（1）视觉特征的性能随模型容量和数据量的增加而提高，（2）目标函数的价值与模型在下游任务上的性能相关。通过预先训练一架 70 亿参数、使用 20 亿图像的 AIM，在 ImageNet-1k 上使用冻结的主干获得了 84.0%...

本论文介绍了AIM，一种基于自回归目标预训练的视觉模型集合。AIM使用20亿图像进行预训练，获得了70亿参数的模型。在ImageNet-1k上，使用冻结的主干，AIM实现了84.0%的准确率。AIM的预训练类似于LLM，无需图像特定策略来稳定规模化训练。

AIM 准确率图像特定策略自回归目标预训练视觉模型集合