该研究提出了一种名为BRAVE的方法,通过整合多个冻结的编码器的特征来改善视觉语言模型(VLM)的性能。BRAVE在字幕生成和视觉问答任务上表现出最先进的性能,同时需要更少的可训练参数和更紧凑的表示。研究结果显示了将不同的视觉偏差纳入VLM的潜力。
完成下面两步后,将自动完成登录并继续当前操作。