小红花·文摘

本研究提出一种新方法，通过层次组织图像和对象框，提升视觉与文本表示学习的效果。该方法在超曲面视觉语言模型中表现优于传统欧几里得CLIP，增强了零样本和检索泛化能力。