LaVIT是一种多模态生成模型,将视觉和语言表达在统一的表示中,使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上,LaVIT具有卓越的多模态理解能力,在下游任务上的性能超过现有模型。
完成下面两步后,将自动完成登录并继续当前操作。