Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
原文中文,约7800字,阅读约需19分钟。发表于: 。开启多模态AI新范式
智源研究院发布了Emu3,一个基于预测下一个token的多模态模型,无需扩散模型即可处理文本、图像和视频。Emu3在多模态任务中表现优异,提供了统一的研究范式。其视觉tokenizer能将视频和图像转换为离散token,与文本结合,实现多种任务。Emu3的开源引发热议,被认为可能改变多模态AI领域,简化开发并提升性能,为实现AGI提供新路径。