Meta「分割一切」进化2.0!跟踪运动物体,代码权重数据集全开源

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

Meta发布了第二代“Segment Anything AI”——SAM2,它现在可以进行实时视频分割和跟踪。该模型的代码、权重和数据集都是开源的。SAM2使用选择和细化的两步过程来交互式地分割视频中的对象。它还引入了一个记忆模块来处理视频分割中的对象运动、变形、遮挡和光照变化等挑战。该模型在一个名为SA-V的大规模数据集上进行了训练,该数据集包含51,000个真实世界的视频和600,000个时空掩模。SAM2能够处理长视频,并为模糊的对象生成多个掩模。该模型在解决过分分割问题方面表现出了良好的性能。然而,在某些情况下,它仍可能会丢失对象的跟踪,并且对于快速移动的对象可能会有困难。该模型是开源的,可免费使用。

🎯

关键要点

  • Meta发布了第二代“Segment Anything AI”——SAM2,支持实时视频分割和跟踪。
  • SAM2的代码、权重和数据集均为开源,遵循Apache 2.0许可协议。
  • SAM2能够处理任意长视频,并能分割和追踪未见过的对象。
  • 模型使用选择和细化的两步过程进行交互式分割,并引入记忆模块以应对视频中的挑战。
  • SAM2在SA-V数据集上训练,包含51000个视频和600000个时空掩码,规模远超以往数据集。
  • 模型在分割和追踪准确性上有所提升,并能解决遮挡问题。
  • 引入流式记忆模块,允许模型实时处理视频并存储对象信息。
  • SAM2能够生成多个有效掩码,处理模糊对象和遮挡情况。
  • 与半监督SOTA方法相比,SAM2在解决过度分割问题上表现良好。
  • 模型在Amazon SageMaker等平台上托管,支持免费使用。
➡️

继续阅读