小红花·文摘

本文介绍了一种使用大规模弱监督数据训练的简约视觉语言模型（Simple Visual Language Model）普及方法，实现了广泛辨别和生成性视觉语言基准的最先进结果。SimVLM展示了强大的泛化和转移能力，实现了零-shot行为。