Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

机器之心 ·

Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

AIxiv专栏促进学术交流，字节跳动AR团队与豆包大模型团队联合开发的Video Depth Anything（VDA）解决了单目深度估计在视频中的一致性问题。VDA在精度、速度和稳定性上刷新了SOTA，尤其在长视频处理上表现优异，推理速度可达30FPS，已公开并受到广泛关注。

🎯

关键要点

AIxiv专栏促进学术交流，已报道2000多篇内容。
字节跳动AR团队与豆包大模型团队联合开发Video Depth Anything（VDA）。
VDA解决了单目深度估计在视频中的一致性问题，刷新了精度、速度和稳定性。
VDA在长视频处理上表现优异，推理速度可达30FPS。
Depth Anything系列在Github上获得11.6k Stars，应用广泛。
时间一致性问题限制了单目深度估计模型在视频领域的应用。
VDA基于Depth Anything V2，采用高效的时空头和时域一致性损失函数。
VDA在视频数据集上精度提升超过10个百分点，速度是最高精度模型的10倍以上。
VDA设计了轻量级时空头，包含四个时间注意力层，降低训练成本。
VDA提出时序梯度匹配损失，去除对光流信息的依赖。
VDA采用关键帧对齐和重叠区域插值方法，处理任意视频长度。
VDA在多个Benchmark上刷新SOTA，尤其在长视频精度和时序稳定性上表现最佳。
豆包大模型团队与浙江大学合作开源Prompt Depth Anything技术，实现高精绝对深度估计。

❓

延伸问答

Video Depth Anything（VDA）是什么？

VDA是字节跳动AR团队与豆包大模型团队联合开发的长视频深度估计模型，旨在解决单目深度估计在视频中的一致性问题。

VDA在性能上有哪些优势？

VDA在精度、速度和稳定性上刷新了SOTA，推理速度可达30FPS，尤其在长视频处理上表现优异，精度提升超过10个百分点。

VDA是如何解决时间一致性问题的？

VDA通过提出时序梯度匹配损失，去除对光流信息的依赖，并采用关键帧对齐和重叠区域插值方法来处理任意视频长度。

VDA的训练成本如何降低？

VDA使用训好的Depth Anything V2模型作为编码器，并在训练过程中固定编码器参数，从而降低训练成本并保留已学习到的特征。

VDA在Benchmark测试中的表现如何？

VDA在多个Benchmark上刷新了SOTA，尤其在长视频的精度和时序稳定性上表现最佳，且耗时远小于其他视频深度模型。

Prompt Depth Anything技术的主要功能是什么？

Prompt Depth Anything技术实现了4K分辨率下的高精绝对深度估计，能够预测场景中每个像素点到摄像机的真实物理距离。

🏷️

继续阅读

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
开源社区“内战”爆发：Bun 创始人预言“未来将禁止人类贡献”，硅谷大佬纷纷站队！
开源社区因Bun创始人Jarred Sumner的言论而分裂，预言未来将禁止人类贡献代码。Zig社区坚守传统开源精神，反对AI生成的“垃圾代码”。硅谷大佬...
Kubernetes v1.36：Pod级资源的就地垂直扩展功能升级至Beta
Kubernetes v1.36推出了Pod级资源垂直扩展功能，现已进入Beta阶段。该功能允许用户在运行中的Pod上动态调整资源预算，无需重启容器，简化...
埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
五月来了：本月16款游戏登陆云端，NVIDIA GeForce RTX 5080性能再升级
本月，GeForce NOW将新增16款游戏，包括《极限竞速：地平线6》和《007：第一光》。Ultimate会员可享受RTX 5080级别的云游戏性能。...