本文介绍了DualToken-ViT,一种轻量高效的视觉变换模型,通过融合局部和全局信息,使用位置感知的全局标记来改进图像的位置信息。实验证明,DualToken-ViT在图像分类、物体检测和语义分割任务上表现出色,在ImageNet-1K数据集上准确率分别达到了75.4%和79.4%。同时,在0.5G和1.0G的FLOPs下,1.0G FLOPs的DualToken-ViT模型的性能超过了LightViT-T模型0.7%。
本文提出了一种新的度量方法和ACM框架,用于从多样化的节点异质性情况中提取更丰富的局部信息。ACM-augmented基线在基准节点分类任务中实现了显着的性能提升,超过大多数最新的GNN,而不会带来显着的计算负担。
本文提出了一种全卷积网络用于迭代非盲去卷积,能够学习自适应的图像先验,保持局部和全局信息。经评估表明,该方法在质量和速度方面表现优异,可胜任同类算法。
完成下面两步后,将自动完成登录并继续当前操作。