作者发现深层ViT存在注意力崩溃问题,提出Re-attention机制以解决该问题。该机制在增加ViT深度时有效提升性能,同时计算和内存开销较小。Re-attention通过可学习的方式在多头自注意力中实现信息交换,增强注意力图的多样性,克服深层模型的性能瓶颈。
该文章介绍了一个用于视频中2D到3D人体姿势估计的网络模型,利用多头自注意力和多跳图卷积网络捕获时空依赖关系和处理远距离交互。实验结果表明该模型能够准确捕捉全局和局部依赖关系,并处理空间细节。
完成下面两步后,将自动完成登录并继续当前操作。