MiniGPT-5:基于生成 Vokens 的交叉视觉与语言生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
LaVIT是一种多模态生成模型,将视觉和语言表达在统一的表示中,使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上,LaVIT具有卓越的多模态理解能力,在下游任务上的性能超过现有模型。
🎯
关键要点
- LaVIT是一种多模态生成模型,能够在统一的表示中同时表达视觉和语言。
- LaVIT使用视觉分词器将非语言图像转换为大型语言模型可读的离散标记。
- LaVIT在预训练的网上规模图像-文本语料库上展现出卓越的多模态理解能力。
- 广泛的实验表明,LaVIT在下游任务上的性能超过现有模型。
- 相关代码和模型将在指定的URL上提供。
➡️