将 LLaMA 解码器调整为视觉 Transformer
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种自我监督学习框架,称为LC-MAE,能够利用全局上下文理解视觉表示,减少输入的空间冗余。LC-MAE在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在语义分割和细粒度视觉分类任务中表现出色,并在鲁棒性评估指标上取得了优异结果。
🎯
关键要点
-
提出了一种自我监督学习框架,称为长程上下文化蒙版自编码器(LC-MAE)。
-
LC-MAE能够有效利用全局上下文理解视觉表示,减少输入的空间冗余。
-
通过学习完整像素和稀疏像素的本地表示,LC-MAE学习到更具区分性的表示。
-
在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。
-
在下游语义分割和细粒度视觉分类任务中表现出色。
-
在多个鲁棒性评估指标上取得了优异的结果。
➡️