本研究提出一种新方法,通过层次组织图像和对象框,提升视觉与文本表示学习的效果。该方法在超曲面视觉语言模型中表现优于传统欧几里得CLIP,增强了零样本和检索泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。