通过多语种文本正则化打破视觉语言模型中的语言障碍

📝

内容提要

本研究解决了视觉语言模型(VLM)在处理多语种输入时生成英语回复的限制问题,提出了一种连续的多语种融合策略,在视觉指令调优过程中注入文本多语种数据,从而保留语言模型的多语种能力。研究结果表明,该方法在不影响视觉性能的前提下显著提升了多语言的语言保真度,提供了一个有效的解决方案以推动全球VLM的应用。

🏷️

标签

➡️

继续阅读