通过视觉-语言引导的动态多模态评估与灵活复杂性

📝

内容提要

该研究解决了现有多模态评估基准静态性和数据重叠的问题,影响评估的有效性。提出的视觉-语言引导(VLB)协议通过动态生成新样本来实现灵活复杂性,有效降低数据污染,提供对大规模视觉-语言模型的全面评估。实验结果表明,VLB显著降低了数据污染,并暴露了大规模视觉-语言模型的性能限制。

➡️

继续阅读