小红花·文摘

该研究介绍了METER框架，一种多模态端到端Transformer框架，通过设计和预训练基于Transformer的视听模型，取得了77.64%的准确率，超过了以前的最优模型，最佳情况下可达到80.54%的准确率。