CT2C-QA:针对中文文本、表格和图表的多模态问答

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。通过从维基百科爬取数据并众包问题-答案对,构建了模态选择器网络以进行消歧。基于此,开发了ManyModalQA基线模型,旨在推动多模态QA模型的研究与迁移学习。

🎯

关键要点

  • 提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。

  • 数据收集方式为爬取维基百科并众包问题-答案对。

  • 问题存在歧义,答案的模态不易确定。

  • 构建了模态选择器网络以进行消歧,分析问题中指示模态的单词。

  • 开发了基于模态选择器预测的ManyModalQA基线模型,触发相应的预训练单模态QA模型。

  • 提供了新的多模态评估集,鼓励低资源泛化新任务的迁移学习。

  • 尽管基线模型表现与人类表现存在差距,但希望能推动多模态QA模型的研究。

➡️

继续阅读