将 LLaMA 解码器调整为视觉 Transformer

该研究探讨了将原本为大型语言模型（LLMs）设计的仅解码器 Transformer（如 LLaMA）改编为适用于计算机视觉领域的可能性，并成功开发了一种名为 iLLaMA 的模型，具备高效计算能力和学习复杂表示的特点，达到了优秀的 ImageNet 数据集准确率。

我们提出了一种自我监督学习框架，称为LC-MAE，能够利用全局上下文理解视觉表示，减少输入的空间冗余。LC-MAE在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率，比基准模型提高了0.6%。在语义分割和细粒度视觉分类任务中表现出色，并在鲁棒性评估指标上取得了优异结果。

LC-MAE llama transformer 全局上下文准确率自我监督学习框架视觉表示解码器