本文提出SparseFormer方法,通过稀疏特征抽样模仿人类视觉识别,使用仅49个标记降低计算成本。实验表明,SparseFormer在ImageNet分类上性能与传统模型相当,且在准确度与吞吐量之间提供更好平衡,易于扩展到视频分类。
完成下面两步后,将自动完成登录并继续当前操作。