该研究探讨了视觉-语言模型(VLMs)训练中的模态偏差问题。通过“跷跷板模态平衡”方法和梯度信号保护,模型在视觉与文本处理之间实现更好平衡,性能提升2.3-4.5%。
完成下面两步后,将自动完成登录并继续当前操作。