CLIP:连接文本与图像

CLIP:连接文本与图像

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

CLIP是一种神经网络,通过自然语言监督高效学习视觉概念,能够在任何视觉分类基准上应用,只需提供视觉类别名称,具备类似于GPT-2和GPT-3的“零样本”能力。

🎯

关键要点

  • CLIP是一种神经网络,通过自然语言监督高效学习视觉概念。
  • CLIP可以应用于任何视觉分类基准,只需提供视觉类别名称。
  • CLIP具备类似于GPT-2和GPT-3的“零样本”能力。
➡️

继续阅读