小红花·文摘

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

机器之心 ·

该研究提出了一种新的视频对象分割方法，结合轻量级模块和分割模型，利用快速优化技术提高分割精度。实验结果表明，该方法在YouTube-VOS和DAVIS数据集上表现优异，具备高帧率和效率。同时，研究探讨了基于记忆机制的分割方法，解决了时间建模和准确性问题，取得了最新的性能。

解决视频对象分割中的工作记忆问题

BriefGPT - AI 论文速递 ·

本文介绍了视频对象分割（VOS）领域的研究进展，包括基于大规模数据集的序列-序列网络、RVOS与VOS模型的结合，以及新提出的Segment Anything Model 2（SAM 2）。研究表明，SAM 2在多个挑战性数据集上表现优异，有效解决了物体遮挡和跟踪问题，推动了VOS技术的发展。

LSVOS挑战报告：大规模复杂和长视频目标分割

BriefGPT - AI 论文速递 ·

该研究提出了一种新的视频对象分割方法，结合轻量级模块和分割模型，利用长短时序注意力网络提高分割精度。该方法在多个数据集上表现出色，有效解决了物体遮挡和追踪等挑战，展现了良好的鲁棒性和准确性。

区分性空间语义视频目标分割解决方案：第六届LSVOS竞赛第一名解决方案

BriefGPT - AI 论文速递 ·

本研究提出了一种无监督视频分析框架，通过时间帧跟踪和3D超像素分割显著对象。实验结果表明，该方法在准确性和鲁棒性上优于传统方法，并展示了在多个数据集上的优越表现，推动了视频对象分割领域的发展。

基于冯·诺依曼熵的镜头分割关键帧提取

BriefGPT - AI 论文速递 ·

本文介绍了一种基于大规模数据集的序列-序列网络，能够有效进行视频对象分割。研究提出了新的数据集YouTube-VOS，包含4,453个视频和94个物体类别，并评估了多种算法。该方法通过轻量级模块和优化技术，在YouTube-VOS和DAVIS数据集上取得了优异的性能，即使在标记数据稀缺的情况下也能训练出高效模型。

通过SAM 2进行视频物体分割：LSVOS挑战VOS赛道的第四个解决方案

BriefGPT - AI 论文速递 ·

该研究提出了一种空间-时间多层次关联框架，以提升视频对象分割效果。通过时空卷积神经网络和无监督学习方法，利用未标记视频数据进行目标分割，在多个数据集上取得最佳性能。此外，研究介绍了新的大型视频对象分割数据集YouTube-VOS，为未来算法提供基础。

学习用于强健视频目标分割的空间语义特征

BriefGPT - AI 论文速递 ·

本文介绍了一种新的自监督任务，通过时间循环混淆提高物体检测器的鲁棒性。提出了循环机制和梯度校正模块以改善视频对象分割，并介绍了对比学习算法Cohere3D，旨在解决图像深度线索不足的问题，特别是在自动驾驶任务中的实例级对应。实验结果表明，这些方法在数据效率和性能上均有显著提升。

循环就业者：面向多视角 3D 检测和跟踪的对象感知时序表示学习

BriefGPT - AI 论文速递 ·

该研究提出了多种半监督视频对象分割技术，如REMN和XMem++，通过动态记忆和注意机制提高了存储和计算效率。实验结果表明，这些方法在多个数据集上表现优异，显著提升了分割的准确性和速度，适用于长视频数据集。

RMem: 受限内存存储改进视频对象分割

BriefGPT - AI 论文速递 ·

本文介绍了多种基于 Transformer 的场景图生成方法，包括 STKET、DSGG 和 TEMPURA。这些方法通过空间-时间知识、图感知查询和无偏差关系表示，提升了视频场景图生成的性能。研究表明，这些方法在不同数据集上均取得了显著的性能提升，推动了视频对象分割和图像描述的进展。

CYCLO: 高空视频中多物体关系建模的循环图变换方法

BriefGPT - AI 论文速递 ·

本文介绍了一种名为PerSAM的个性化图像分割方法，结合目标引导注意力和语义提示技术，提升了SAM模型的性能。同时，研究提出了PerSeg数据集，并在视频对象分割中验证了该方法的有效性。此外，文中还讨论了SqueezeSAM和MobileSAM等多种SAM模型的改进，旨在提高分割质量和效率。

FocSAM: 深入研究分割任何物体中的聚焦对象

BriefGPT - AI 论文速递 ·

本文介绍了YouTube-VOS数据集及其在视频对象分割中的应用。该数据集包含4453个视频和94个物体类别，评估了多种先进算法。研究提出了基于持续学习和轻量级模块的新方法，显著提高了分割精度和效率。

LVOS：大规模长期视频对象分割的基准

BriefGPT - AI 论文速递 ·

本文探讨了多种基于深度学习的时空数据建模方法，旨在提高实时预测的准确性，特别是在犯罪和交通预测方面。提出了时空图神经网络和因果时空卷积网络等新颖架构，展示了在视频对象分割和目标检测中的优越性能。这些方法通过捕捉时间和空间特征，优化了数据处理效率，推动了相关领域的研究进展。

STROOBnet 优化算法基于 GPU 加速的近端价挤压递归策略

BriefGPT - AI 论文速递 ·

本文提出了一种通用框架，将同步图像事件模型转换为异步模型，显著降低计算复杂度并提高精度。研究了基于LiDAR的三维物体检测，提出了Single-stride Sparse Transformer方法以提升检测性能。引入动态稀疏注意力机制的Transformer模型，改善样本指导图像生成效果。Sparse Spatiotemporal Transformers方法在视频对象分割中表现优异，自适应区域引导Transformer网络有效解决局部特征匹配问题，实验结果超越现有方法。

场景自适应稀疏 Transformer 用于事件驱动的目标检测

BriefGPT - AI 论文速递 ·

本文介绍了一种结合RVOS模型与多模态对比监督的视频对象分割方法，提出了OnlineRefer和IFIRVOS等新框架和算法，显著提升了分割精度和速度，推动了该技术的发展。

朝向时间一致的参考视频对象分割

BriefGPT - AI 论文速递 ·

本文介绍了视频对象分割（VOS）方法的进展，包括半监督和无监督模型。研究提出了基于记忆网络和Transformer的架构，显著提高了分割精度和效率，尤其在复杂场景中表现优异。新方法QMOS和OneVOS在多个基准测试中取得领先成绩，展示了在长视频和多对象分割中的应用潜力。

通过调控交叉注意力记忆实现高效视频对象分割

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的自监督学习方法DenseDINO，该方法利用Temporal-DINO在视频对象分割和视觉表示学习中取得显著进展。通过引入基于token的点级监督，DenseDINO提升了模型在复杂任务中的表现，尤其在无监督视频分割基准测试中展现了优异的性能。

DINO-Tracker：单视频中自监督点追踪的 DINO 驯化

BriefGPT - AI 论文速递 ·

本研究提出了可扩展的简化 VOS（SimVOS）框架，利用单个转换器主干进行特征提取和匹配，提升目标感知特征学习。SimVOS 在多个视频对象分割基准测试中取得了最先进的结果，展示了其在半监督视频对象分割中的优越性能。

OneVOS: 统一视频对象分割的全能变压器框架

BriefGPT - AI 论文速递 ·

该研究提出了一种新的视频对象分割方式，通过快速优化技术学习目标外观模型，预测出粗略但鲁棒的目标分割，并将其转化为高质量的分割掩模。该方法具有快速、易于训练、高效等优点，在实验中表现出更高的帧率和优异的性能。

点指上行视频目标分割

BriefGPT - AI 论文速递 ·

两次拍摄足够吗？一种用于乳腺超声视频分割的标签高效方法

BriefGPT - AI 论文速递 ·