小红花·文摘

Saronic Technologies’ autonomous surface vessels are ushering in a new era for maritime in the United States. Cofounder and CEO Dino Mavrookas discusses the company’s mission and approach.

Dino Mavrookas on shipbuilding’s autonomous future

McKinsey Insights & Publications ·

本文讨论了自监督视觉模型DINO及其在目标检测中的应用，重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景，采用双编码器-单解码器架构，结合图像和文本特征进行对象检测，创新设计了特征提取、增强和查询选择等方面，以提升检测性能。

IDEA-Research推出的一系列检测、分割模型：从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2

结构之法算法之道 ·

Adirik在Replicate上发布的Grounding-Dino模型初学者指南

DEV Community ·

港大马毅团队推出SimDINO和SimDINOv2，通过编码率正则化简化DINO系列模型的训练流程，提升了模型的鲁棒性和性能。这些新模型去除了复杂的后处理步骤，使训练更简单且效果更佳，体现了“简单即是美”的设计理念。实验结果显示，SimDINO系列在多个任务上优于DINO，具备更高的计算效率和稳定性。

港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

量子位 ·

简化自监督视觉：编码率正则化如何改变 DINO 和 DINOv2

实时互动网 ·

本文解决了DINO及DINOv2模型在无标记图像数据学习中的复杂性和不稳定性问题。通过在损失函数中引入显式的编码率项，提出了简化版本SimDINO和SimDINOv2，这些模型在不同设计选择下表现出更高的鲁棒性，且在下游任务上学习到了更高质量的表征，展示了简化设计原则在深度学习中的潜力。

通过编码率正则化简化DINO

BriefGPT - AI 论文速递 ·

DINO是一种自监督学习方法，通过知识蒸馏提升视觉Transformer的特征质量。它动态构建教师网络，利用学生网络输出进行训练，优化图像特征学习。DINO采用多裁剪策略和温度softmax，提升模型性能。

从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)

结构之法算法之道 ·

本研究针对CLIP在细粒度任务中的视觉特征不足问题，提出了一种无标签提示调整方法，利用自监督学习模型DINO的丰富视觉特征和大型语言模型的广泛文本知识，显著提升了基于CLIP的图像分类性能。研究结果表明，提出的NoLA框架在11个多样化的图像分类数据集上，相较于当前最先进的无标签分类方法LaFter平均提升3.6%。

CLIP与DINO的结合：使用无标签图像集合调整零样本分类器

BriefGPT - AI 论文速递 ·

本研究解决了开放词汇分割中图像与自由形式文本概念的分割问题，现有模型在空间定位方面存在困难。我们提出的Talk2DINO方法，结合了DINOv2的空间精确性与CLIP的语言理解，利用注意力图选择性地将视觉补丁与文本嵌入对齐，显著提高了分割质量及前景与背景的区分能力。实验结果表明，Talk2DINO在多个无监督OVS基准测试中表现优异。

与DINO对话：通过语言连接自监督视觉骨干以实现开放词汇分割

BriefGPT - AI 论文速递 ·

本文介绍了DINO-X，一个统一的物体中心视觉模型，旨在提升开放世界物体检测的性能。通过扩大输入选项和构建大规模数据集，DINO-X显著提高了对长尾物体的识别能力，并在多个基准测试中表现优异。

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种新的注意力动态 DINO 框架，有效解决智能体在不同交互上下文中对手势和语言描述的误解问题，显著提升任务性能，尤其在 IoU 阈值为 0.75 时超越人类表现。

AD-DINO: Attention-Dynamic Distance-Aware Entity Reference Understanding

BriefGPT - AI 论文速递 ·

本研究提出DINO-LG模型，通过自监督学习提高冠状动脉钙化评分的准确性，专注于钙化区域，显著改善评分和分割性能，为冠状动脉疾病的预防提供更精确的工具。

Task-Specific DINO Model for Coronary Artery Calcification Scoring

BriefGPT - AI 论文速递 ·

本研究提出了多种基于世界模型的视觉预测和规划方法，结合深度强化学习、无监督学习和合成数据训练等技术，显著提升了机器人在复杂环境中的操作效率和适应能力。

基于预训练视觉特征的DINO-WM：实现零-shot规划的世界模型

BriefGPT - AI 论文速递 ·

该研究提出了MMICL模型，旨在解决图像与文本的多模态提示问题，提升视觉-语言模型的性能。通过结合CLIP和DINO的特征，提出了COMM策略，增强了模型的视觉能力。实验结果表明，MMICL在复杂推理任务中表现优异，有效缓解了语言偏差问题，展现了在多模态基准测试中的竞争力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递 ·

垂直电商图像搜索再升级：DINO 模型带来精准匹配体验

亚马逊AWS官方博客 ·

该研究介绍了多种基于扩散模型的医学影像生成技术，包括无监督生成X光图像、语义3D医学图像合成和去噪MRI方法。这些模型通过优化计算资源和提高训练效率，解决了医学成像中的数据稀缺和隐私问题，展示了医学图像合成的潜力。

DiNO-Diffusion. 自监督预训练扩展医学扩散

BriefGPT - AI 论文速递 ·

本文介绍了一种基于自监督学习的计算机视觉模型BC-ViT，该模型利用DINO预训练视觉变换器，通过模仿学习提高泛化能力。此外，研究提出了PPGeo框架，以解决样本不足问题，并在多任务视觉任务中取得显著进展。

基于视觉的端到端自主驾驶的 DINO 预训练

BriefGPT - AI 论文速递 ·

本文评估了Segment Anything Model（SAM）在医学图像分割中的表现，发现其性能受任务和数据集影响较大。尽管在CT数据上表现良好，但仍需结合手动标注以提高效果，呼吁进一步探索SAM在医学领域的应用潜力。

自动图像数据标注的分段模型：基于 Grounding DINO 的文本提示的实证研究

BriefGPT - AI 论文速递 ·

DINO-vMF 使用混合模型的方法改进了 DINO 的集群分配概率计算，对于较大的 ViT-Base 模型也更加稳定且在各种下游任务中表现更好，提供了更好的图像表示。

DINO 作为 von Mises-Fisher 混合模型

BriefGPT - AI 论文速递 ·

本文介绍了多个先进的物体检测模型，包括 MM-Grounding-DINO、DINO、Mask DINO 和 OmDet-Turbo，强调了它们在不同数据集上的优越性能和实时检测能力。同时，研究探讨了 Focal-Stable-DINO 和 DE-ViT 模型在医学影像和开放集检测中的应用，展示了其在疾病分类和对象定位任务中的有效性。

推进 DINO 1.5: 开拓开放集合目标检测的 “边缘

BriefGPT - AI 论文速递 ·