本文介绍了多模态问答挑战ManyModalQA,要求代理同时考虑文本、图像和表格三种模态。通过维基百科数据和众包问题-答案对,构建了模态选择器网络,分析问题中的指示模态词。尽管基线模型的表现与人类存在差距,但期望能推动多模态QA模型的研究与迁移学习。
完成下面两步后,将自动完成登录并继续当前操作。