小红花·文摘

本文介绍了一种新型视觉 Transformer 模型——token clustering transformer，能够有效提取不同区域特征，并在多个人体相关任务中表现优异。同时，研究探讨了视觉 Transformer 的解释性方法，提出了新的图像标记方案和多模态令牌融合方法，以提升模型的可解释性和性能。