小红花·文摘

本研究探讨了大型视觉-语言模型（LVLM）在处理非英语输入时的不足。通过多阶段实验，提出了优化多语言训练策略的关键洞察，发现使用25-50%的非英语数据可以显著提升多语言性能，并引入新基准任务以增强图像中文本理解能力。