小红花·文摘

本文介绍了多模态自回归建模的进展，提出了视觉词概念，结合文本和图像生成模型，提升了多模态输出质量。研究表明新模型在视觉问答和图像生成任务中表现优越，并探讨了多模态大型语言模型的架构和训练技术，为未来研究奠定基础。