本研究提出了一种新方法,通过视觉 Transformer 编码器的中间层融合语言和视觉特征,提升交叉模态对齐,实现精准分割。该方法在多个数据集上超越了现有最佳性能,展示了在指称分割任务中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。