本研究提出了一种基于rank loss的策略,用于解决Vision and Language Models在细致理解和fine-grained任务上的挑战。该方法在CLIP上的测试中表现出显著的性能提升,并增强了X-VLM在细粒度推理上的表现。
完成下面两步后,将自动完成登录并继续当前操作。