我们提出了一种自我监督学习框架,称为LC-MAE,能够利用全局上下文理解视觉表示,减少输入的空间冗余。LC-MAE在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在语义分割和细粒度视觉分类任务中表现出色,并在鲁棒性评估指标上取得了优异结果。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: