量子位 ·

最新研究揭示视觉模型与人脑的对齐机制

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

最新研究表明，视觉模型与人脑的相似性受模型大小、训练数据量和图像类型的影响。DINOv3模型在训练中逐步与人脑表征一致，尤其在使用人类相关图像时效果最佳。研究发现，模型学习的表征层级与大脑结构高度一致，不同特征的出现速度也存在差异。

🎯

🔎

研究表明，视觉模型与人脑的相似性受到多个因素的影响，包括模型的大小、训练数据的量以及图像类型。这意味着在设计和训练视觉模型时，选择合适的参数和数据类型至关重要，尤其是使用人类相关图像可以显著提高模型的表现。

DINOv3模型在训练过程中，类脑表征的出现遵循特定的时间顺序。低级视觉特征较早获得，而高级特征则需要更多的训练。这一发现提示我们，模型的训练策略应考虑到不同层级特征的学习时间，以优化模型的整体性能。

研究发现，使用人类中心图像训练的模型在所有脑区的编码效果最佳。这表明，图像类型对模型学习的影响不可忽视，选择与人类视觉体验相符的图像可以提升模型的类脑特征表现。

❓

DINOv3模型在17亿张自然图像上进行训练。

影响因素包括模型大小、训练数据量和图像类型。

DINOv3模型在使用人类相关图像时表现最佳，脑相似性评分最高。

模型学习的表征层级与大脑结构高度一致，特征出现速度存在差异。

更大的模型在训练中更快表现出类脑特征，尤其在高级脑区。

半达时间与皮层扩展、厚度、动力学和髓鞘浓度相关，反映出类脑表征的出现顺序。

🏷️