本文介绍了一种新的分块式遮蔽图像建模(BIM)框架,旨在降低遮蔽图像建模(MIM)的计算资源需求,同时保持高性能。该框架支持多个深度神经网络的并发训练,降低计算成本。研究还探讨了双流视觉模型的开发,模拟人类视觉系统的处理方式,提升计算机视觉的鲁棒性和效率。此外,MIM与监督训练结合,改善了下游任务的学习表示质量,展现出在细粒度分类任务中的优势。
完成下面两步后,将自动完成登录并继续当前操作。