结构之法算法之道 ·

IDEA-Research推出的一系列检测、分割模型：从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

本文讨论了自监督视觉模型DINO及其在目标检测中的应用，重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景，采用双编码器-单解码器架构，结合图像和文本特征进行对象检测，创新设计了特征提取、增强和查询选择等方面，以提升检测性能。

🎯

关键要点

本文讨论了自监督视觉模型DINO及其在目标检测中的应用。
Grounding DINO通过语言信息将闭集检测器扩展到开放集场景。
Grounding DINO采用双编码器-单解码器架构，结合图像和文本特征进行对象检测。
特征提取、增强和查询选择等方面的创新设计提升了检测性能。
Grounding DINO的提出背景是将封闭集检测器扩展到开放集场景。
引入语言信息实现对未见物体的泛化是开放集检测的关键。
特征融合可以在三个阶段进行：颈部、查询初始化和头部。
基于Transformer的检测方法如DINO能够与语言模块一致地交互。
Grounding DINO通过特征增强器和语言引导查询选择模块进行跨模态特征融合。
作者引入子句级别文本特征技术以提高基础训练期间的模型性能。
Grounding DINO为给定的图像-文本对输出多个对象框和名词短语对。
跨模态解码器结合图像和文本模态特征以实现更好的模态对齐。
损失函数使用L1损失和GIOU损失进行边界框回归，并使用对比损失进行分类。
DINO-X是IDEA-Research提出的统一视觉模型，旨在目标检测和理解。
Grounded SAM是IDEA-Research提出的模型，适用于多样化视觉任务。

❓

延伸问答

Grounding DINO的主要创新点是什么？

Grounding DINO通过语言信息将闭集检测器扩展到开放集场景，并采用双编码器-单解码器架构，结合图像和文本特征进行对象检测。

DINO-X模型的目的是什么？

DINO-X是IDEA-Research提出的统一视觉模型，旨在实现目标检测和理解。

如何实现跨模态特征融合？

跨模态特征融合通过特征增强器模块进行，结合图像和文本特征，采用自注意力和交叉注意力机制。

Grounding DINO如何处理未见物体的检测？

Grounding DINO通过引入语言信息，实现对未见物体的泛化，从而扩展闭集检测器到开放集场景。

特征融合在Grounding DINO中有哪些阶段？

特征融合可以在三个阶段进行：颈部、查询初始化和头部。

Grounding DINO的损失函数是如何设计的？

Grounding DINO使用L1损失和GIOU损失进行边界框回归，并使用对比损失进行分类。

🏷️

继续阅读

Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...