小红花·文摘

提出了一种轻量级和高效的视觉变换模型DualToken-ViT，融合局部和全局信息，改进图像位置信息。在广泛实验中，展示了DualToken-ViT在图像分类、物体检测和语义分割任务上的有效性。在ImageNet-1K数据集上，准确率分别为75.4%和79.4%。FLOPs为0.5G和1.0G时，1.0G FLOPs的模型性能超过LightViT-T模型0.7%。

具有自我出现标记的完全注意力网络

BriefGPT - AI 论文速递 ·

该文介绍了DualToken-ViT视觉变换模型，它融合局部和全局信息，使用位置感知的全局标记来丰富全局信息，改进了图像的位置信息。在图像分类、物体检测和语义分割任务上进行广泛实验，展示了DualToken-ViT的有效性。

CAIT：面向 ViTs 的高精度、快速推理和良好可迁移性的三赢压缩

BriefGPT - AI 论文速递 ·