MTVQA:多语言基于文本为中心的视觉问答基准测试
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA,并通过评估多种先进的多模态大型语言模型在该数据集上的表现,发现仍有提高性能的空间,凸显了该数据集的价值。
TextSquare使用Square-10M数据集提出了对文本中心的MLLMs进行调参的新方法,并在OCR评估中达到了新的标准(62.2%),在6个文本中心基准测试中胜过GPT4V和Gemini模型。研究还展示了VQA推理数据在提供全面上下文洞察力方面的关键作用,并提高了准确性,减轻了幻觉。研究揭示了文本中心VQA数据集规模的指数级增长与模型性能改善之间的关系,验证了数据集规模和Square-10M的高质量的必要性。