探索简化开放词汇语义分割

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

LSeg是一种新的语言驱动的语义图像分割模型,使用文本编码器和基于transformer的图像编码器计算输入标签和图像的嵌入。LSeg具有高度竞争的零-shot性能,能够对未知类别进行泛化,无需重新训练或仅需要单个样本的训练。

🎯

关键要点

  • LSeg是一种新的语言驱动的语义图像分割模型。
  • 模型使用文本编码器计算输入标签的嵌入。
  • 基于transformer的图像编码器计算输入图像的嵌入。
  • 能够实现对描述性输入标签的密集像素嵌入。
  • LSeg可以对未见过的类别进行泛化,无需重新训练或仅需单个样本的训练。
  • 该模型具有高度竞争的零-shot性能。
➡️

继续阅读