机器之心 ·

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

字节跳动的Depth Anything V2模型已被苹果收入Core ML模型库，该模型是一种单目深度估计模型，可应用于视频特效、自动驾驶、3D建模、增强现实等领域。V2版本在细节处理和速度上有显著提升，通过Scaling Laws思路构建并通过训练和优化不断提升性能。该模型的论文已被选入CVPR 2024，其中一作是团队的实习生。

🎯

关键要点

字节跳动的Depth Anything V2模型已被苹果收入Core ML模型库。
Depth Anything是一种单目深度估计模型，应用于视频特效、自动驾驶、3D建模等领域。
V2版本在细节处理和速度上有显著提升，包含25M到1.3B参数的不同大小模型。
Depth Anything V1与V2的论文一作是团队实习生。
Core ML旨在将机器学习模型集成到iOS和MacOS设备上高效运行。
Depth Anything V2在iPhone 12 Pro Max上的推理速度达到31.1毫秒。
团队选择依托Scaling Laws构建基础模型，在单一任务上实现更好效果。
深度估计任务被认为是计算机视觉领域中的基础任务，应用广泛。
Depth Anything的训练过程经历了数据引擎设计和知识蒸馏等多个步骤。
团队通过合成数据和真实数据的结合，提升了模型的鲁棒性和泛化能力。
Depth Anything V2在鲁棒性和细节丰富度上有较大提升，速度快于基于稳定扩散技术的模型。
相关论文已被选入CVPR 2024，实习生在项目中发挥了重要作用。
团队鼓励实习生在研究中提出新思路，提供自由研究氛围。

❓

延伸问答

Depth Anything V2模型的主要应用领域有哪些？

Depth Anything V2模型可应用于视频特效、自动驾驶、3D建模、增强现实等领域。

Depth Anything V2与V1相比有哪些显著提升？

V2版本在细节处理和速度上有显著提升，鲁棒性更强。

Depth Anything V2的推理速度在iPhone 12 Pro Max上是多少？

Depth Anything V2在iPhone 12 Pro Max上的推理速度达到31.1毫秒。

Depth Anything模型的训练过程中遇到了哪些挑战？

训练模型以达到并超过已有成果水平，以及在细节方面有更好表现是主要挑战。

Scaling Laws在Depth Anything模型中的作用是什么？

Scaling Laws用于构建一个简单但功能强大的基础模型，在单一任务上实现更好效果。

Depth Anything V2的论文一作是谁？

Depth Anything V1与V2的论文一作是团队的实习生。

🏷️