该研究介绍了METER框架,一种多模态端到端Transformer框架,通过设计和预训练基于Transformer的视听模型,取得了77.64%的准确率,超过了以前的最优模型,最佳情况下可达到80.54%的准确率。
完成下面两步后,将自动完成登录并继续当前操作。