本文提出了一种新框架,结合图像结构的形式化表征与具身认知理论,以提升代理推理系统的效率和可解释性,从而改善人机交互。
论文提出了T2T-ViT模型,通过引入tokens-to-token(T2T)模块有效融合图像结构信息,并设计了深窄的ViT主干网络,增强特征丰富性。在ImageNet上,T2T-ViT在零训练时性能优于ResNets,与MobileNets相当。
完成下面两步后,将自动完成登录并继续当前操作。