机器之心 ·

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

SAM2Long是基于SAM 2的新型视频对象分割模型，采用多路径记忆树结构，有效解决长视频中的遮挡和错误累积问题。实验结果表明，SAM2Long在多个数据集上显著提高了分割精度，展现出更强的鲁棒性和泛化能力，适用于自动驾驶等实际应用场景。

🎯

🔎

SAM2Long引入的多路径记忆树结构使得模型在处理长视频时能够探索多种分割路径。这种设计有效避免了单一错误对后续帧的影响，提升了模型在复杂场景中的鲁棒性。读者在应用时应关注这一结构如何在实际任务中减少错误累积，尤其是在遮挡和目标重现的情况下。

尽管SAM2Long增加了额外的计算需求，但其设计仍保持了较低的计算开销。通过剪枝策略，模型能够在不显著增加计算负担的情况下，提升长视频分割的性能。这一特性使得SAM2Long在资源有限的环境中仍具备实用性，适合广泛应用于自动驾驶和智能监控等领域。

SAM2Long在多个数据集上展现出优越的分割精度，尤其在未见类别和复杂场景中表现突出。这表明其在实际应用中的潜力，特别是在自动驾驶和视频编辑等领域。读者应关注该技术的进一步发展及其在不同场景中的适应性，以把握未来的技术趋势。

❓

SAM2Long采用了多路径记忆树结构，有效解决了长视频中的遮挡和错误累积问题。

SAM2Long在多个数据集上显著提高了分割精度，展现出更强的鲁棒性和泛化能力。

SAM2Long利用遮挡分数进行不确定性处理，强制选择不同IoU值的掩码路径以避免错误路径的过早收敛。

SAM2Long在不同模型规模和多个数据集上均优于SAM 2，尤其在SA-V和LVOS数据集上实现了显著的性能提升。

SAM2Long可广泛应用于自动驾驶、视频编辑和智能监控等实际场景。

SAM2Long实施了剪枝策略，保留得分最高的路径以减少计算和内存开销，同时保持较低的计算成本。

🏷️