宝玉的分享 ·

介绍 SAM 2：下一代 Meta 视频和图像分割模型 [译]

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

Meta推出了下一代图像和视频分割模型SAM 2，支持实时对象分割，性能优于前代。该模型能够处理未见对象，适用于视频效果和数据标注等多种应用。开源代码和SA-V数据集将共享，包含51,000个视频和600,000个掩码，推理速度接近实时，推动计算机视觉的发展。

🎯

关键要点

Meta推出了下一代图像和视频分割模型SAM 2，支持实时对象分割，性能优于前代。
SAM 2能够处理未见对象，适用于视频效果和数据标注等多种应用。
开源代码和SA-V数据集将共享，包含51,000个视频和600,000个掩码。
SAM 2的推理速度接近实时，推动计算机视觉的发展。
SAM 2在图像分割精度上超过了之前的能力，并在视频分割性能上优于现有方法。
SAM 2的设计允许在视频中实时处理对象分割，并支持多种交互提示。
SA-V数据集的规模比现有最大视频分割数据集多4.5倍，包含丰富的标注。
SAM 2的快速推理能力可能激发实时视频中对象选择和交互的新方式。

❓

延伸问答

SAM 2模型的主要功能是什么？

SAM 2模型支持实时对象分割，能够处理未见对象，适用于图像和视频的多种应用。

SA-V数据集包含哪些内容？

SA-V数据集包含约51,000个视频和超过600,000个掩码，规模比现有最大视频分割数据集多4.5倍。

SAM 2在视频分割性能上与前代相比有什么提升？

SAM 2在视频分割性能上优于现有方法，并且在图像分割精度上也超过了之前的能力。

SAM 2的推理速度如何？

SAM 2的推理速度接近实时，达到每秒约44帧。

SAM 2如何处理视频中的遮挡问题？

SAM 2引入了遮挡检测模块，能够预测当前帧中是否存在目标对象，即使对象被遮挡。

SAM 2的开源计划是什么？

SAM 2的代码和权重将在Apache 2.0许可证下开源，SA-V数据集也将在CC BY 4.0许可证下共享。

🏷️

继续阅读

VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...