小红花·文摘

该研究提出了一种名为BRAVE的方法，通过整合多个冻结的编码器的特征来改善视觉语言模型（VLM）的性能。BRAVE在字幕生成和视觉问答任务上表现出最先进的性能，同时需要更少的可训练参数和更紧凑的表示。研究结果显示了将不同的视觉偏差纳入VLM的潜力。