plus studio ·

DINO-v2笔记

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

DINO-v2是一种无监督学习的预训练方法，具有强大的泛化能力。该方法通过构建多样化的图像数据集、多层级训练、使用居中方法和正则化等技术贡献，实现了优秀的性能。作者还介绍了数据集准备、消除重复数据、自监督图像检索和判别式自监督预训练等步骤。实验结果表明，DINO-v2在多个图像理解任务上超过了其他方法。作者提供了项目主页和开源代码。

🎯

关键要点

DINO-v2是一种无监督学习的预训练方法，具有强大的泛化能力，适用于各种图像分布和任务。
该方法通过构建多样化的图像数据集、进行多层级训练、使用居中方法和正则化等技术实现优秀性能。
数据集准备包括从大型未筛选数据池中检索图像，生成LVD-142M数据集。
数据来源包括ImageNet-22k、ImageNet-1k、Google Landmarks等，经过处理后得到1.2B个独特图像。
消除重复数据使用自监督描述符方法，减少冗余并增加图像多样性。
自监督图像检索使用ViT-H/16网络计算图像嵌入，并进行k-means聚类。
判别式自监督预训练包括图像级和patch级目标，通过交叉熵损失学习模型参数。
Sinkhorn-Knopp方法用于提高自监督学习模型性能，KoLeo正则化器鼓励特征均匀分布。
在预训练最后阶段提高图像分辨率以适应下游任务。
使用A100 GPU和PyTorch 2.0进行训练，DINO-v2代码在相同硬件条件下运行速度提高2倍，内存使用量减少三分之一。
实现快速高效的注意力机制，采用改进的随机深度方法以节省内存和计算资源。
完全共享数据并行（FSDP）降低跨GPU通信成本，提高训练效率。
模型蒸馏方法使得预训练模型性能优于从头训练，并提出了一种知识蒸馏方法。

🏷️

继续阅读

开源社区“内战”爆发：Bun 创始人预言“未来将禁止人类贡献”，硅谷大佬纷纷站队！
本文永久链接 – https://tonybai.com/2026/05/01/open-source-civil-war-bun-founder-pre...
在Kubernetes中管理Valkey集群
Over the last several years, Percona has introduced several rock-star Kuberne...
马斯克与奥特曼的案件中，陪审团离开房间时发生了最疯狂的事情
Okay, I am not a lawyer so I only understood about half of what just happened...
网友吐槽：OpenClaw又触发了Claude Code当场翻脸还扣钱！
有趣的是，如果你最近的提交中在 JSON 数据块里提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会额外收费。一句“openc...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
Posette 2026是一个免费的虚拟开发者活动，专注于PostgreSQL生成列的应用与演变。活动将通过实际案例探讨生成列的性能、存储和查询行为，并结...

DINO-v2笔记

内容提要

关键要点

标签

继续阅读