量子位 ·

何恺明带大二本科生颠覆扩散图像生成：扔掉多步采样和潜空间，一步像素直出

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

何恺明团队提出的Pixel Mean Flow（pMF）方法简化了扩散模型，直接在像素空间生成图像，省去了多步采样和潜空间。pMF在ImageNet上取得最佳FID成绩，验证了单步生成的可行性，推动了生成建模的进步。

🎯

🔎

Pixel Mean Flow（pMF）方法通过直接在像素空间生成图像，省去了传统扩散模型中的多步采样和潜空间编码。这一创新不仅简化了生成过程，还提高了计算效率，标志着生成建模领域的一次重要进步。

在ImageNet数据集上，pMF在256×256和512×512分辨率下分别取得了2.22和2.48的FID成绩，显示出其在图像生成质量上的优势。这些结果为实际应用提供了有力支持，尤其是在需要高效生成图像的场景中。

pMF方法引入了感知损失，显著提升了生成图像的质量。这一技术的应用表明，直接在生成器训练中使用感知损失可以有效改善图像的视觉效果，为未来的生成模型设计提供了新的思路。

❓

pMF方法简化了扩散模型，直接在像素空间生成图像，省去了多步采样和潜空间。

pMF在256×256分辨率上取得了2.22 FID，512×512分辨率上为2.48 FID，均为最佳成绩。

pMF引入了感知损失，显著提升了生成图像的质量。

pMF在计算效率上优于传统GAN方法，且在FID上表现更佳。

pMF的核心设计是通过速度场计算损失，利用流形假设简化生成过程。

团队希望这项工作能鼓励未来对直接、端到端生成建模的探索，推动生成建模的进步。

🏷️