CT2C-QA:针对中文文本、表格和图表的多模态问答
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了多模态问答(MMQA)中对文本、表格和图表的联合分析缺乏的课题,提出了CT2C-QA数据集,包含200个精心挑选网页的文本、表格和图表,从而提供全面的多模态理解能力。研究引入了一种多代理系统AED,通过协作部署、信息交互和集体决策的方式显著提升了多模态数据的分析和推理能力,实验结果表明,现有模型尚未达到本数据集设定的基准。
本文提出了多模态问答挑战ManyModalQA,涵盖文本、图像和表格三种模态。通过从维基百科爬取数据并众包问题-答案对,构建了模态选择器网络以进行消歧。基于此,开发了ManyModalQA基线模型,旨在推动多模态QA模型的研究与迁移学习。