量子位 ·

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

Q: 这项研究的作者是谁？

研究的作者是清华校友路橙和宋飏。

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

OpenAI推出了一种新型多模态模型，生成图像速度比扩散模型快50倍。该模型由两位清华校友研发，采用两步采样，参数规模达到15亿，能在0.11秒内生成样本。研究显示，该模型在多个数据集上表现优异，生成质量接近最佳扩散模型。

🎯

关键要点

OpenAI推出新型多模态模型，生成图像速度比扩散模型快50倍。
该模型由清华校友路橙和宋飏研发，采用两步采样，参数规模达到15亿。
模型在512×512分辨率的ImageNet数据集上训练，生成样本时间为0.11秒。
研究表明，该模型生成质量接近最佳扩散模型，且计算开销仅为后者的10%。
一致性模型是一种快速的扩散模型替代方案，解决了实时应用的效率和可扩展性问题。
论文提出TrigFlow框架，统一了扩散模型和流匹配方法，改进了训练稳定性。
通过引入恒等时间变换、位置时间嵌入和自适应双重归一化层等技术，提升了模型的训练效果。
在多个基准数据集上，该模型表现优异，CIFAR-10上的FID为2.06，ImageNet 64×64为1.48。
研究人员发现，随着teacher扩散模型规模的扩大，sCM的改进也呈比例增加。
作者路橙和宋飏在生成模型领域有丰富的研究经验，专注于改进生成模型的训练方法和架构设计。

🔎

延伸解读

实时生成的潜力

OpenAI的新型多模态模型在生成速度上大幅提升，为实时应用提供了新的可能性。该模型的快速生成能力使其在图像、音频和视频等领域的应用前景广阔，尤其是在需要即时反馈的场景中，如游戏开发和虚拟现实。

技术创新与训练稳定性

研究中提出的TrigFlow框架通过统一扩散模型和流匹配方法，显著提高了训练的稳定性。这一创新不仅解决了传统一致性模型的训练不稳定问题，还为未来的模型设计提供了新的思路，可能推动生成模型领域的进一步发展。

生成质量与计算效率的平衡

尽管新模型在生成速度上有显著优势，但其生成质量与最佳扩散模型相差不大，且计算开销仅为后者的10%。这表明，在追求高效生成的同时，保持生成质量仍然是该领域的重要挑战，值得研究者关注。

❓

延伸问答

OpenAI的新型多模态模型有什么特点？

该模型生成图像速度比扩散模型快50倍，参数规模达到15亿，能在0.11秒内生成样本。

这项研究的作者是谁？

研究的作者是清华校友路橙和宋飏。

该模型在生成质量上与扩散模型相比如何？

生成质量接近最佳扩散模型，且计算开销仅为后者的10%。

模型是如何实现快速生成的？

通过两步采样的方法，直接将噪声转换为无噪声样本，避免了传统扩散模型的多步骤去噪过程。

TrigFlow框架的作用是什么？

TrigFlow框架统一了扩散模型和流匹配方法，改进了训练稳定性。

该模型在不同数据集上的表现如何？

在CIFAR-10上的FID为2.06，ImageNet 64×64为1.48，表现优异。

🏷️