研究人员通过语言模型在多模态数据上取得了显著进展。LaVIT是一种将视觉和语言统一表示的模型,通过将非语言图像转换为离散标记的视觉分词器,可以处理图像和文本。实验证明,LaVIT在多个任务上的性能超过现有模型。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: