量子位 ·

全员本科生！何恺明组新作：文生图，258M参数就够了

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

何恺明团队推出新论文MiniT2I，探索文生图生成。该模型基于MM-JiT架构，仅用258M参数，训练成本相当于一次标准ImageNet实验。MiniT2I通过直接在像素空间生成图像，简化了模型结构，去掉了VAE等复杂模块，显著降低计算开销。实验结果显示，MiniT2I在性能上超过多款大型模型，展现出强大竞争力。

🎯

关键要点

何恺明团队推出新论文MiniT2I，探索文生图生成。
MiniT2I基于MM-JiT架构，仅用258M参数，训练成本相当于一次标准ImageNet实验。
该模型通过直接在像素空间生成图像，简化了模型结构，去掉了VAE等复杂模块，显著降低计算开销。
实验结果显示，MiniT2I在性能上超过多款大型模型，展现出强大竞争力。
MiniT2I的设计原则是尽可能去掉不必要的模块，验证模型在简化后的有效性。
研究发现，文本条件可以视为另一种形式的上下文条件，文生图生成与类别条件生成的差距并不如预期大。
MiniT2I在训练过程中，采用了流匹配框架，分为预训练和微调两个阶段，最终实现了高效的文生图生成。

🔎

延伸解读

简化模型的优势

MiniT2I通过去掉复杂模块如VAE，直接在像素空间生成图像，显著降低了计算开销。这种简化不仅提高了训练效率，还使得模型在性能上与大型模型相竞争，展示了简约设计的潜力。

文生图生成的潜力

研究表明，文本条件生成与类别条件生成之间的差距并不如预期大。这意味着在资源有限的情况下，使用较小的模型也能实现高效的文生图生成，拓宽了相关研究的可能性。

年轻研究者的崛起

何恺明团队的成员大多为本科生，他们在AI研究领域展现出色的能力。这不仅反映了年轻学者的潜力，也为未来的研究注入了新鲜血液，值得关注他们的后续发展。

❓

延伸问答

MiniT2I模型的主要创新点是什么？

MiniT2I模型通过直接在像素空间生成图像，简化了模型结构，去掉了VAE等复杂模块，仅用258M参数实现了高效的文生图生成。

MiniT2I的训练成本与其他模型相比如何？

MiniT2I的训练成本仅相当于一次标准ImageNet实验，显著低于许多大型文生图模型。

MiniT2I是如何处理文本条件的？

MiniT2I将文本条件视为另一种形式的上下文条件，经过预训练语言模型编码后，能够有效用于生成图像。

MiniT2I在性能上与其他大型模型相比如何？

实验结果显示，MiniT2I在性能上超过多款大型模型，展现出强大的竞争力。

MiniT2I的训练过程是怎样的？

MiniT2I的训练分为预训练和微调两个阶段，首先在CC12M上预训练，然后在高质量合成图像上微调。

MiniT2I的设计原则是什么？

MiniT2I的设计原则是尽可能去掉不必要的模块，以验证简化后的模型有效性。

🏷️