BriefGPT - AI 论文速递 ·

ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了多个视觉问答（VQA）相关的数据集和模型，重点关注低资源语言（如越南语）的研究进展。研究提出了多模态融合模型PhoVIT和OpenViVQA数据集，旨在提升越南语VQA系统的性能，促进相关算法的发展。

🎯

通过对 OCR 文本中令牌的处理和选择顺序的实验，显著提高了 ViTextVQA 数据集上基准模型的性能。
引入 ViCLEVR 数据集，提出多模态融合模型 PhoVIT，在四个评估指标上取得最先进的性能，促进低资源语言的多模态融合算法发展。
OpenViVQA 是首个包含越南语开放式答案的大规模 VQA 数据集，包含 11,000+ 图像和 37,000+ 问答对，提出三种融合图像和答案信息的方法。
EVJVQA 是基于越南图片的多语言视觉问答基准数据集，用于评估多语言 VQA 系统，前两个团队使用 ViT 和 mT5 预训练模型实现多语言 QA 系统。
研究盲人用户关注的图像内容，提出 LoRRA 模型和 TextVQA 数据集以评估和改进模型表现。
创建 UIT-ViQuAD 数据集，包含超过 23000 个问题-答案对，比较人类表现和最佳模型表现，未来研究可提高越南 MRC 的准确度和性能。
回顾 VQA 领域的研究，包括问题定义、数据集、算法和评估指标，讨论当前数据集的局限性和未来发展方向。

❓

ViOCRVQA 数据集是首个包含越南语开放式答案的大规模 VQA 数据集，包含 11,000+ 图像和 37,000+ 问答对。

PhoVIT 模型是一种多模态融合模型，在四个评估指标上取得了最先进的性能，促进了低资源语言的多模态融合算法发展。

EVJVQA 数据集用于评估多语言视觉问答系统，特别是基于越南图片的多语言 VQA 系统。

通过引入新的数据集和模型，如 OpenViVQA 和 PhoVIT，结合多模态融合方法，可以显著提高越南语 VQA 系统的性能。

LoRRA 模型旨在解决盲人用户在看不到图片时对图像内容的关注，特别是图片中的文本。

UIT-ViQuAD 数据集包含超过 23000 个由人类创建的问题-答案对，旨在比较人类表现和最佳模型表现。

🏷️