MiniGPT-5:基于生成 Vokens 的交叉视觉与语言生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

LaVIT是一种多模态生成模型,将视觉和语言表达在统一的表示中,使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上,LaVIT具有卓越的多模态理解能力,在下游任务上的性能超过现有模型。

🎯

关键要点

  • LaVIT是一种多模态生成模型,能够在统一的表示中同时表达视觉和语言。
  • LaVIT使用视觉分词器将非语言图像转换为大型语言模型可读的离散标记。
  • LaVIT在预训练的网上规模图像-文本语料库上展现出卓越的多模态理解能力。
  • 广泛的实验表明,LaVIT在下游任务上的性能超过现有模型。
  • 相关代码和模型将在指定的URL上提供。
➡️

继续阅读