CT2C-QA:针对中文文本、表格和图表的多模态问答
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。通过从维基百科爬取数据并众包问题-答案对,构建了模态选择器网络以进行消歧。基于此,开发了ManyModalQA基线模型,旨在推动多模态QA模型的研究与迁移学习。
🎯
关键要点
-
提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。
-
数据收集方式为爬取维基百科并众包问题-答案对。
-
问题存在歧义,答案的模态不易确定。
-
构建了模态选择器网络以进行消歧,分析问题中指示模态的单词。
-
开发了基于模态选择器预测的ManyModalQA基线模型,触发相应的预训练单模态QA模型。
-
提供了新的多模态评估集,鼓励低资源泛化新任务的迁移学习。
-
尽管基线模型表现与人类表现存在差距,但希望能推动多模态QA模型的研究。
🏷️
标签
➡️