小红花·文摘

该文章介绍了AnyGPT，一种多模态语言模型，能处理不同语言模式如语音、文本、图像和音乐。AnyGPT通过数据级的预处理实现稳定训练，无需修改现有大型语言模型架构。研究人员构建了以文本为中心的多模态数据集，用于多模态对齐的预训练。实验结果表明，AnyGPT在处理多模态输入和输出时表现出色，证明了离散表示在语言模型中的有效性。