MTVQA：多语言基于文本为中心的视觉问答基准测试

本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA，并通过评估多种先进的多模态大型语言模型在该数据集上的表现，发现仍有提高性能的空间，凸显了该数据集的价值。

TextSquare使用Square-10M数据集提出了对文本中心的MLLMs进行调参的新方法，并在OCR评估中达到了新的标准(62.2%)，在6个文本中心基准测试中胜过GPT4V和Gemini模型。研究还展示了VQA推理数据在提供全面上下文洞察力方面的关键作用，并提高了准确性，减轻了幻觉。研究揭示了文本中心VQA数据集规模的指数级增长与模型性能改善之间的关系，验证了数据集规模和Square-10M的高质量的必要性。

MLLMs OCR评估 Square-10M数据集 TextSquare VQA推理数据基准测试多语言