本文提出了群组式指称表达分割(GRES)任务及其数据集(GRD),并介绍了基线方法GRSer,旨在捕获语言与视觉的交互。研究还提出了多层次指代表达式分割任务(MRES)及其评估基准,展示了新模型在多个数据集上的优越性能。此外,探讨了3D场景中的指称表达理解与分割,提出了统一框架3DRefTR,以提升模型的泛化能力和性能。
完成下面两步后,将自动完成登录并继续当前操作。