CT2C-QA:针对中文文本、表格和图表的多模态问答

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。通过从维基百科爬取数据并众包问题-答案对,构建了模态选择器网络以进行消歧。基于此,开发了ManyModalQA基线模型,旨在推动多模态QA模型的研究与迁移学习。

原文中文,约400字,阅读约需1分钟。
阅读原文