小红花·文摘

本文提出了群组式指称表达分割（GRES）任务及其数据集（GRD），并介绍了基线方法GRSer，旨在捕获语言与视觉的交互。研究还提出了多层次指代表达式分割任务（MRES）及其评估基准，展示了新模型在多个数据集上的优越性能。此外，探讨了3D场景中的指称表达理解与分割，提出了统一框架3DRefTR，以提升模型的泛化能力和性能。