本文介绍了推理分割任务及其基准模型,通过大语言模型分割图像和文本。模型包括生成mask和视觉编码器,训练目标为文本生成损失和分割掩码损失的加权和。训练数据包括语义分割、引用分割和视觉问答数据集。作者还提到LISA具有zero-shot能力,需要训练的参数包括解码器、llm的词嵌入和投影最后一层的mlp。
完成下面两步后,将自动完成登录并继续当前操作。