本文介绍了越南多语言视觉问答基准数据集EVJVQA及其相关研究,涉及多个模型和方法的开发与评估,如OpenViVQA和BARTPhoBEiT,旨在提升越南语视觉问答系统的性能,推动低资源语言的多模态算法发展。
本文介绍了多语言视觉问答基准数据集EVJVQA,旨在评估多语言视觉问答系统。研究探讨了跨语言视觉问答的输入数据、微调和评估方法,提出了多种基准和模型,展示了在13种语言中的优异性能,推动了多语言视觉问答的发展。
完成下面两步后,将自动完成登录并继续当前操作。