语言模型中的冰冻 Transformer 是有效的视觉编码层
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究展示了METER框架,使用多模态端到端Transformer和预训练的增强模型,在VQAv2测试数据集上取得了77.64%的准确率,超过了以前的最优模型,最佳情况下可达80.54%的准确率。
🎯
关键要点
- 研究展示了名为 METER 的多模态端到端 Transformer 框架。
- 研究了如何设计和预训练一个完全基于 Transformer 的视听模型。
- 通过对模型设计进行分解,使用预训练的增强模型,达到了更好的性能。
- 在 VQAv2 测试数据集上取得了 77.64% 的准确率,超过了以前的最优模型。
- 最佳情况下可达 80.54% 的准确率。
➡️