应对多语言视觉语言建模中感知多样性的多模态重描述框架

本研究解决了多语言视觉语言模型中因数据偏见导致的感知多样性理解不足的问题。提出了一种基于大型语言模型的多模态重描述策略,通过改变英文描述后再进行翻译来提高模型的理解能力。研究显示,该方法在德语和日语的文本图像检索任务中显著提升了性能,特别是在非母语错误案例中表现突出。

发表于:
阅读原文