Kdenlive 25.04 发布,新增基于 SAM2 模型的对象分割插件,可移除视频背景。重构音频波形代码,优化时间线体验,支持 OpentimelineIO 导入导出,并进行了工作流程改进和错误修复。
本研究利用长时间点轨迹作为监督信号,提出了一种新损失函数,以解决基于运动的对象分割问题,并有效建模复杂运动模式,超越现有方法。
本研究提出了持续SAM适应基准(CoSAM)和混合领域适配器(MoDA)算法,以解决现有任意对象分割模型在动态数据流中的局限性。实验结果表明,MoDA在持续分割任务中表现优异,具备良好的知识保留和适应能力。
本文综述了航空数据分析中的计算机视觉任务,包括对象检测、变化检测、对象分割和场景级分析等关键任务。对不同架构和任务中使用的超参数进行了比较,并讨论了具有不同领域专业知识的库。通过案例研究,提出了实用解决方案来应对航空数据分析中的挑战,并指出了未解决的重要问题。
Meta发布了SAM 2,这是一个能够实时对图像和视频进行对象分割的统一模型。SAM 2在准确性和性能方面超过了以前的模型,可以在任何视频或图像中分割任何对象,无需定制。该模型具有各种潜在应用,例如创建新的视频效果和辅助视觉数据注释。Meta还分享了SA-V数据集,并发布了一个Web演示供用户尝试该模型。
本研究提出了一种名为参考音频 - 视觉分割(Ref-AVS)任务的新任务,旨在通过多模态提示对对象进行分割。通过构建第一个Ref-AVS基准和提出新方法,实验证明了该方法在精确分割对象方面的有效性。
该论文综述了视频分割中使用的深度学习算法,包括对象分割和语义分割,并提供了这两种方法和数据集的详细概述,以及在几个数据集上的性能评估和未来研究机会。
OGC算法可在三维点云中实现多个3D物体的分割,无需人工标注,通过挖掘动态运动模式作为监督信号来实现。该算法考虑了多物体刚体性一致性和对象形状不变性,在室内和具有挑战性的室外场景中广泛评估,证明了其在对象实例分割和一般对象分割方面的杰出性能。
本文介绍了一个名为Segment Anything Model(SAM)的基础模型,用于视觉任务的开发。SAM可以根据廉价的输入提示在图像中进行对象分割。作者通过大量的视觉基准任务研究了SAM的零样本图像分割准确性,并发现SAM通常能够实现与目标任务上训练的视觉模型类似甚至超过其识别精度。他们还检查了SAM在多样化、广泛研究的基准任务集上的表现。然而,作者还研究了SAM在航空图像问题中的表现,发现由于航空图像和目标对象的独特特征,SAM在某些情况下会失败。
完成下面两步后,将自动完成登录并继续当前操作。