小红花·文摘

本研究提出了一种新方法，通过视觉 Transformer 编码器的中间层融合语言和视觉特征，提升交叉模态对齐，实现精准分割。该方法在多个数据集上超越了现有最佳性能，展示了在指称分割任务中的有效性。