Apple Machine Learning Research ·

对比定位语言-图像预训练

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

CLIP方法用于训练视觉编码器生成图像和文本表示，但在细粒度视觉表示上有不足。本文提出CLOC方法，通过区域-文本对比损失提升CLIP的定位能力。CLOC引入可提示嵌入，设计视觉丰富的标注框架，生成大规模区域-文本伪标签，增强MLLMs在指代和定位任务中的表现。

🎯

关键要点

CLIP方法用于训练视觉编码器生成图像和文本表示，广泛应用于多模态大语言模型（MLLMs）。
CLIP的成功依赖于对图像级别的网络爬虫噪声文本注释的对齐，但在细粒度视觉表示上存在不足。
本文提出CLOC方法，通过区域-文本对比损失和模块提升CLIP的定位能力。
CLOC引入可提示嵌入，使编码器能够根据空间提示轻松转换图像嵌入为区域表示。
设计了一个视觉丰富和空间本地化的标注框架，以大规模生成区域-文本伪标签。
CLOC能够处理数十亿个注释图像，提供高质量的区域嵌入，增强图像区域识别和检索任务。
CLOC可以作为CLIP的替代方案，特别是在指代和定位任务中增强MLLMs的表现。

❓

延伸问答

CLOC方法如何提升CLIP的定位能力？

CLOC通过引入区域-文本对比损失和可提示嵌入，增强了CLIP的定位能力，使其能够根据空间提示轻松转换图像嵌入为区域表示。

CLIP在多模态大语言模型中的应用是什么？

CLIP被广泛应用于多模态大语言模型（MLLMs），用于连接图像输入与语言交互。

CLOC如何生成区域-文本伪标签？

CLOC设计了一个视觉丰富和空间本地化的标注框架，以大规模生成区域-文本伪标签。

CLOC与CLIP相比有哪些优势？

CLOC能够处理数十亿个注释图像，提供高质量的区域嵌入，特别在指代和定位任务中增强MLLMs的表现，是CLIP的有效替代方案。

CLOC的预训练方法有什么创新之处？

CLOC的创新在于引入了区域-文本对比损失和可提示嵌入，提升了图像的区域表示能力。

CLOC如何支持大规模预训练？

CLOC通过设计视觉丰富和空间本地化的标注框架，能够有效生成区域-文本伪标签，从而支持大规模预训练。

🏷️

继续阅读

Cursor降低价格并增加企业支出控制，迎接“代币经济”变革
本周AI编码领域发生了重要变化，GitHub的Copilot结束固定订阅模式，转向基于使用量的计费，引发用户强烈反响。Linux基金会成立Tokenomi...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Snowflake认为它知道究竟是什么在拖慢开发者的进度
Snowflake推出了基于AI的编码代理CoCo，旨在简化企业开发，支持自动化工作流程和应用开发。CoCo与Snowflake的数据平台深度集成，提供多...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
守护所 — v5的诞生
文章讲述了一位开发者在测试一个拥有255个核心和8个强大图形处理单元的计算系统时的经历。该系统存储了超过1200万对象，但大部分是重复版本。开发者通过解析...
为何自主智能使运营平台成为企业中最重要的层级
企业在人工智能应用中面临的主要挑战是运营复杂性。Hewlett Packard Enterprise的Latha Vishnubhotla指出，基础设施的...