量子位 ·

Meta「分割一切」进化2.0！跟踪运动物体，代码权重数据集全开源

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

Meta发布了第二代“Segment Anything AI”——SAM2，它现在可以进行实时视频分割和跟踪。该模型的代码、权重和数据集都是开源的。SAM2使用选择和细化的两步过程来交互式地分割视频中的对象。它还引入了一个记忆模块来处理视频分割中的对象运动、变形、遮挡和光照变化等挑战。该模型在一个名为SA-V的大规模数据集上进行了训练，该数据集包含51,000个真实世界的视频和600,000个时空掩模。SAM2能够处理长视频，并为模糊的对象生成多个掩模。该模型在解决过分分割问题方面表现出了良好的性能。然而，在某些情况下，它仍可能会丢失对象的跟踪，并且对于快速移动的对象可能会有困难。该模型是开源的，可免费使用。

🎯

关键要点

Meta发布了第二代“Segment Anything AI”——SAM2，支持实时视频分割和跟踪。
SAM2的代码、权重和数据集均为开源，遵循Apache 2.0许可协议。
SAM2能够处理任意长视频，并能分割和追踪未见过的对象。
模型使用选择和细化的两步过程进行交互式分割，并引入记忆模块以应对视频中的挑战。
SAM2在SA-V数据集上训练，包含51000个视频和600000个时空掩码，规模远超以往数据集。
模型在分割和追踪准确性上有所提升，并能解决遮挡问题。
引入流式记忆模块，允许模型实时处理视频并存储对象信息。
SAM2能够生成多个有效掩码，处理模糊对象和遮挡情况。
与半监督SOTA方法相比，SAM2在解决过度分割问题上表现良好。
模型在Amazon SageMaker等平台上托管，支持免费使用。

❓

延伸问答

SAM2的主要功能是什么？

SAM2主要支持实时视频分割和跟踪，能够处理任意长视频，并分割未见过的对象。

SAM2是如何处理视频中的遮挡问题的？

SAM2增加了一个“遮挡头”模型输出，用于预测对象是否在当前帧上，从而解决遮挡问题。

SAM2的开源情况如何？

SAM2的代码、权重和数据集均为开源，遵循Apache 2.0许可协议，用户可以免费使用。

SAM2在处理模糊对象时的表现如何？

SAM2能够生成多个有效掩码，以处理模糊对象的情况，提供不同的分割预测。

SAM2的训练数据集有多大？

SAM2在SA-V数据集上训练，该数据集包含51,000个视频和600,000个时空掩码，规模远超以往数据集。

SAM2与上一代SAM相比有哪些改进？

SAM2相比于上一代，支持任意长视频实时分割，准确性提升，并解决了遮挡问题。

🏷️

继续阅读

《超自然》并没有死去
Meta宣布将VR健身游戏Supernatural独立为Supernatural Health公司，预计今年秋季推出新应用和内容，原团队将继续参与，现有订...
程序员盯上了快餐店客服，因为发现它能写代码
快餐店Chipotle的客服机器人Pepper被发现能够写代码，背后是通用人工智能大模型。程序员通过逆向分析其API，创建了名为Chipotlai Max...
[折扣代码] ChatGPT商业版向8个国家用户提供买1送1优惠至少开通2个席位
OpenAI推出ChatGPT商业版促销活动，用户开通两个席位可享买一送一优惠。该服务支持八个国家，价格从18英镑到25美元不等，印度区价格最低，约134...
停止盲目信任AI生成的代码：一个React代码重构案例研究
Vibe Coding是一种软件开发实践，通过简单的英语描述需求，AI生成源代码。尽管AI工具强大，生成的代码可能存在错误和技术债务，开发者需仔细检查。文...
Valkey 为什么这么快？盘点 Valkey 中提升性能的黑科技
Valkey是Amazon ElastiCache的核心引擎，作为高性能开源内存数据库，单节点吞吐量可达119万RPS，集群可扩展至2000节点。Valk...
今年最值得升级的生产力工具，可能是一整张 AI 工位
文章讨论了在AI工具普及背景下，如何有效利用这些工具提升工作效率。推荐使用Gemini和Kimi进行信息搜索，飞书与Obsidian进行知识管理，以及Pl...