大规模自回归图像模型的可扩展预训练

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本论文介绍了AIM,一种基于自回归目标预训练的视觉模型集合。AIM使用20亿图像进行预训练,获得了70亿参数的模型。在ImageNet-1k上,使用冻结的主干,AIM实现了84.0%的准确率。AIM的预训练类似于LLM,无需图像特定策略来稳定规模化训练。

🎯

关键要点

  • AIM是一种基于自回归目标预训练的视觉模型集合。

  • AIM使用20亿图像进行预训练,获得了70亿参数的模型。

  • 在ImageNet-1k上,使用冻结的主干,AIM实现了84.0%的准确率。

  • 视觉特征的性能随模型容量和数据量的增加而提高。

  • 目标函数的价值与模型在下游任务上的性能相关。

  • 即使在大规模下,AIM未观察到性能饱和的迹象。

  • AIM的预训练类似于LLM,无需图像特定策略来稳定规模化训练。

➡️

继续阅读