视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式
原文中文,约7800字,阅读约需19分钟。发表于: 。智源研究院发布的多模态模型Emu3,通过预测下一个token实现对文本、图像和视频的理解与生成,无需使用扩散模型。Emu3在图像和视频生成及视觉语言理解任务中表现优异。其视觉tokenizer将视频和图像转为离散token,与文本token结合,实现多模态统一研究。Emu3的开源推动了多模态AI的创新,简化了开发和应用。
智源研究院发布的多模态模型Emu3,通过预测下一个token实现对文本、图像和视频的理解与生成,无需使用扩散模型。Emu3在图像和视频生成及视觉语言理解任务中表现优异。其视觉tokenizer将视频和图像转为离散token,与文本token结合,实现多模态统一研究。Emu3的开源推动了多模态AI的创新,简化了开发和应用。