量子位 ·

何恺明团队新作：扩散模型可能被用错了

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

何恺明团队的新论文提出扩散模型应聚焦于去噪，直接预测干净图像而非噪声。新架构JiT（Just image Transformers）设计简化，避免复杂组件，实验表明其在高维空间中表现优越，生成质量高。

🎯

关键要点

何恺明团队的新论文提出扩散模型应聚焦于去噪，直接预测干净图像而非噪声。
扩散模型的主流玩法是预测噪声，但这与其去噪的本质相悖。
流形假设认为自然图像集中在低维流形上，而噪声则均匀分布在高维空间中。
直接预测干净图像可以降低模型容量要求，更符合神经网络的设计初衷。
新架构JiT（Just image Transformers）设计简化，不依赖复杂组件和预训练特征。
JiT在高维空间中表现优越，生成质量高，且在ImageNet上达到了SOTA级FID分数。
研究团队的成员黎天鸿在表征学习和生成模型方面有深入研究。

❓

延伸问答

何恺明团队的新论文主要提出了什么观点？

论文提出扩散模型应聚焦于去噪，直接预测干净图像而非噪声。

扩散模型的主流玩法与何恺明团队的观点有什么不同？

主流玩法是预测噪声，而何恺明团队认为应直接预测干净图像，这与去噪的本质相悖。

JiT架构有什么特点？

JiT架构设计简化，不依赖复杂组件和预训练特征，直接处理图像进行去噪。

流形假设在扩散模型中有什么重要性？

流形假设认为自然图像集中在低维流形上，而噪声均匀分布在高维空间，这影响了模型的设计和训练。

JiT在高维空间中的表现如何？

JiT在高维空间中表现优越，生成质量高，且在ImageNet上达到了SOTA级FID分数。

何恺明团队的研究对扩散模型的未来发展有什么启示？

研究表明，扩散模型应回归去噪本质，简化设计可能提高生成质量和模型效率。

🏷️

标签

JiT 何恺明去噪扩散模型生成质量高维空间

➡️

继续阅读

四大学科同时发现：智能是高维空间的导航
数学、认知科学、语言学和人工智能领域的研究表明，智能可能是高维空间中的导航能力。各领域通过几何学理解复杂系统，吸引子、概念空间和激活几何等概念指向在结构化...
多年来，Apache Cassandra 将这项工作交给了你的团队——而6.0版本将其收回
Cassandra 6.0版本引入了“Accord”共识协议，提供跨多个分区的ACID事务语义，简化了应用程序中的协调工作。同时，事务集群元数据（TCM）...
让矩阵归模拟，让逻辑归数字！这家中国团队重新定义了计算机
安纳智芯专注于模拟计算，解决了传统模拟计算的精度问题，开发出高精度的模拟芯片。这些芯片能够直接求解矩阵方程，显著提高计算效率。模拟计算具有更高的并行度和更...
人工智能团队现在每月部署1000次。你的部署管道并未为此而构建。
文章讨论了人工智能在软件开发中的应用及其对项目部署率的影响。随着AI工具的普及，项目部署率从2021年的每月357次增长到2025年的988次。高效团队结...
更快、更漂亮、更丝滑，一文带你快速上手 WordPress 7.0 现代化仪表盘！
WordPress 7.0 正式发布，带来了现代化的仪表盘和多项新功能，包括简洁的配色方案、流畅的页面切换、命令面板快捷键、集中字体管理和可视化修订功能，...
WordPress 7.0 原生 AI 能力详解：三大核心模块一次看透，像拼积木一样玩 AI！
WordPress 7.0 正式发布，新增内置 AI 功能，简化插件开发。引入 WP AI Client、Client-Side Abilities AP...