FG-CLIP模型通过长文本理解和细粒度视觉比对,解决了传统CLIP的“视觉近视”问题,能够精准识别局部细节。实验结果表明,其在多个任务上优于现有模型。360人工智能研究院将开源相关数据和代码,推动细粒度视觉理解的发展。
完成下面两步后,将自动完成登录并继续当前操作。