Lumina-T2X:基于流式大规模扩散转换器将文本转化为任何模态、分辨率和持续时间

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Lumina-T2X是一种Flow-based Large Diffusion Transformer(Flag-DiT)模型,可生成任意分辨率、宽高比和长度的图像、视频、多视角3D物体和音频剪辑。采用RoPE、RMSNorm和Flow matching等技术,具有稳定性、灵活性和可伸缩性,并在分辨率外推、高分辨率编辑、一致的3D视图合成和视频过渡等任务中表现出色。

🎯

关键要点

  • Lumina-T2X是一种Flow-based Large Diffusion Transformer(Flag-DiT)模型。
  • 该模型能够生成任意分辨率、宽高比和长度的图像、视频、多视角3D物体和音频剪辑。
  • 采用RoPE、RMSNorm和Flow matching等先进技术。
  • 在稳定性、灵活性和可伸缩性方面取得了突破。
  • 在分辨率外推、高分辨率编辑、一致的3D视图合成和视频过渡等任务中表现出色。
➡️

继续阅读