论文提出了一种新的CNN-ViT混合神经网络FasterViT,旨在提高计算机视觉应用中的图像吞吐能力。FasterViT结合了CNN的局部特征学习和ViT的全局建模,通过分层注意力方法优化计算成本和窗口间交互。该模型在分类、对象检测和分割等任务中表现出色,尤其在高分辨率图像处理上具有优势。
完成下面两步后,将自动完成登录并继续当前操作。