小红花·文摘

本文介绍了多模态问答挑战ManyModalQA，要求代理同时考虑文本、图像和表格三种模态。通过维基百科数据和众包问题-答案对，构建了模态选择器网络，分析问题中的指示模态词。尽管基线模型的表现与人类存在差距，但期望能推动多模态QA模型的研究与迁移学习。