本论文介绍了AIM,一种基于自回归目标预训练的视觉模型集合。AIM使用20亿图像进行预训练,获得了70亿参数的模型。在ImageNet-1k上,使用冻结的主干,AIM实现了84.0%的准确率。AIM的预训练类似于LLM,无需图像特定策略来稳定规模化训练。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: