小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了多模态自回归建模的进展，提出了视觉词概念，结合文本和图像生成模型，提升了多模态输出质量。研究表明新模型在视觉问答和图像生成任务中表现优越，并探讨了多模态大型语言模型的架构和训练技术，为未来研究奠定基础。

ANOLE: 用于交织式图像文本生成的开放式、自回归的本地大型多模态模型

BriefGPT - AI 论文速递 ·

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

机器之心 ·