本文介绍了一种新型视觉 Transformer 模型——token clustering transformer,能够有效提取不同区域特征,并在多个人体相关任务中表现优异。同时,研究探讨了视觉 Transformer 的解释性方法,提出了新的图像标记方案和多模态令牌融合方法,以提升模型的可解释性和性能。
完成下面两步后,将自动完成登录并继续当前操作。