本文介绍了多模态自回归建模的进展,提出了视觉词概念,结合文本和图像生成模型,提升了多模态输出质量。研究表明新模型在视觉问答和图像生成任务中表现优越,并探讨了多模态大型语言模型的架构和训练技术,为未来研究奠定基础。
完成下面两步后,将自动完成登录并继续当前操作。