本研究提出多上下文时序一致模块(MTCM),有效解决视频目标分割中的查询不一致和上下文不足问题,显著提升分割质量,在MeViS数据集上J值达到47.6。
视频目标分割(VOS)旨在自动分割视频中的目标,广泛应用于多个领域。现有方法在复杂场景中面临挑战。本文提出逐帧和逐段时空交互记忆网络(FSSTIM),通过整合多粒度时空信息,提升分割准确性和效率,尤其在处理遮挡和相似目标时表现优异。实验结果表明,FSSTIM在多个数据集上超越现有方法,具有重要应用价值。
本研究提出了一种轻量级记忆网络LiVOS,旨在解决长视频和高分辨率下半监督视频目标分割的内存限制问题。实验结果表明,LiVOS在保持竞争性能的同时,GPU内存减少了53%,支持高达4096p的推理。
本研究提出了一种名为OnlineRefer的在线模型,通过视频目标分割的方法改进了引用预测的准确性和便捷性。OnlineRefer在四个基准测试中取得了优异成绩。
完成下面两步后,将自动完成登录并继续当前操作。