小红花·文摘

本研究提出了渐进式多粒度对齐框架（PromViL），旨在提升大规模视觉语言模型在处理组合概念和实体高层关系时的能力。实验结果表明，PromViL在视觉定位和组合问答任务中显著优于基线模型。