通过多语种文本正则化打破视觉语言模型中的语言障碍
📝
内容提要
本研究解决了视觉语言模型(VLM)在处理多语种输入时生成英语回复的限制问题,提出了一种连续的多语种融合策略,在视觉指令调优过程中注入文本多语种数据,从而保留语言模型的多语种能力。研究结果表明,该方法在不影响视觉性能的前提下显著提升了多语言的语言保真度,提供了一个有效的解决方案以推动全球VLM的应用。
➡️
本研究解决了视觉语言模型(VLM)在处理多语种输入时生成英语回复的限制问题,提出了一种连续的多语种融合策略,在视觉指令调优过程中注入文本多语种数据,从而保留语言模型的多语种能力。研究结果表明,该方法在不影响视觉性能的前提下显著提升了多语言的语言保真度,提供了一个有效的解决方案以推动全球VLM的应用。