小红花·文摘

FG-CLIP模型通过长文本理解和细粒度视觉比对，解决了传统CLIP的“视觉近视”问题，能够精准识别局部细节。实验结果表明，其在多个任务上优于现有模型。360人工智能研究院将开源相关数据和代码，推动细粒度视觉理解的发展。