量子位 ·

告别“图文不符”！FG-CLIP实现细粒度跨模态对齐，360开源模型重塑AI视觉理解

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

FG-CLIP模型通过长文本理解和细粒度视觉比对，解决了传统CLIP的“视觉近视”问题，能够精准识别局部细节。实验结果表明，其在多个任务上优于现有模型。360人工智能研究院将开源相关数据和代码，推动细粒度视觉理解的发展。

🎯

🔎

FG-CLIP模型通过结合长文本理解与细粒度视觉比对，克服了传统CLIP模型的局限性，尤其是在局部特征的识别上表现突出。这种创新使得模型在复杂场景下能够更准确地捕捉细节，提升了视觉理解的深度和广度。

360人工智能研究院决定开源FG-CLIP的相关数据和代码，这不仅有助于推动细粒度视觉理解的研究进展，也为其他研究者提供了宝贵的资源，促进了学术界与工业界的合作与创新。开源将加速技术的普及与应用。

在实际应用中，细粒度信息的准确分析对于提高识别系统的性能至关重要。FG-CLIP的成功表明，局部特征的捕捉能够显著提升模型在复杂环境中的适应性，尤其是在目标被遮挡或背景复杂的情况下。

❓

FG-CLIP模型通过长文本理解和细粒度视觉比对，解决了传统CLIP的视觉近视问题，能够精准识别局部细节。

FG-CLIP在细粒度理解、开放词汇对象检测和图文检索等任务上表现优于传统CLIP，能够更好地处理长文本和局部细节。

FG-CLIP采用两阶段训练策略，结合全局对比学习和局部对比学习，增强了对视觉细节的感知能力。

长文本提供丰富的背景信息和复杂查询能力，支持跨模态深度语义匹配，提升模型的理解能力。

360人工智能研究院将开源FG-CLIP相关的数据、代码和预训练模型，以推动细粒度视觉理解的发展。

FG-CLIP通过难细粒度负样本学习方法，构建与正样本存在细微差异的负样本，以增强模型的判别能力。

🏷️