语言主导 QFormer 用于高效的视觉语言理解
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究推出METER多模态端到端Transformer框架,探讨完全基于Transformer的视听模型设计与预训练。该模型在VQAv2测试集上准确率达77.64%,最高可达80.54%,超越基于区域特征模型。
🎯
关键要点
- 研究推出METER多模态端到端Transformer框架。
- 探讨完全基于Transformer的视听模型设计与预训练。
- 模型在VQAv2测试集上准确率达77.64%。
- 最高可达80.54%的准确率。
- 超越基于区域特征的模型。
➡️