小红花·文摘

本研究提出了一种基于多模态大型语言模型的端到端视频推理分割方法（VRS-HQ），有效解决了现有方法的空间复杂性和运动捕捉不足的问题。VRS-HQ在ReVOS上表现优异，超越VISA，展现出强大的时空特征表示能力。