结构之法算法之道 ·

从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

DINO是一种自监督学习方法，通过知识蒸馏提升视觉Transformer的特征质量。它动态构建教师网络，利用学生网络输出进行训练，优化图像特征学习。DINO采用多裁剪策略和温度softmax，提升模型性能。

🎯

🔎

DINO通过自监督学习提升视觉Transformer的特征质量，避免了对大量标注数据的依赖。这种方法不仅提高了模型的学习效率，还能在数据稀缺的情况下，依然保持较好的性能表现。自监督学习的引入使得模型能够从未标注数据中提取更多信息，具有更广泛的应用潜力。

DINO的教师网络是动态构建的，这一创新使得模型在训练过程中能够不断优化。与传统的固定教师网络不同，DINO通过学生网络的历史迭代来更新教师网络，这种方法提高了特征学习的灵活性和适应性，可能会在实际应用中带来更好的效果。

DINO采用多裁剪策略生成不同视图，鼓励局部到全局的对应关系。这种策略不仅丰富了模型的输入信息，还增强了模型对图像特征的理解能力。通过不同视图的对比，模型能够更好地捕捉图像中的细节和整体结构，提升了特征提取的准确性。

❓

DINO的主要目的是通过自监督学习提升视觉Transformer的特征质量。

DINO通过动态构建教师网络，利用学生网络的输出进行训练，从而在自训练流程中传播软伪标签。

DINO采用了多裁剪策略和温度softmax来提升模型性能。

DINO的教师网络是在训练过程中动态构建的，而不是使用固定的预训练教师网络。

DINO的网络架构由主干和投影头组成，使用标准Transformer网络进行特征提取。

教师网络通过学生网络的过去迭代使用指数移动平均进行更新。

🏷️