该文章介绍了AnyGPT,一种多模态语言模型,能处理不同语言模式如语音、文本、图像和音乐。AnyGPT通过数据级的预处理实现稳定训练,无需修改现有大型语言模型架构。研究人员构建了以文本为中心的多模态数据集,用于多模态对齐的预训练。实验结果表明,AnyGPT在处理多模态输入和输出时表现出色,证明了离散表示在语言模型中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。