科学空间|Scientific Spaces ·

生成扩散模型漫谈（三十一）：预测数据而非噪声

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

LDM（潜在扩散模型）仍然是主流，但高倍压缩导致信息损失。新方法JiT直接预测原始数据，简化模型架构，提升高分辨率生成效果。尽管JiT未显著超越现有SOTA，但降低了计算成本，增强了模型的可迁移性和统一性。

🎯

关键要点

LDM（潜在扩散模型）是当前主流的扩散模型，但高倍压缩导致信息损失。
新方法JiT（Just image Transformers）直接预测原始数据，简化模型架构，提升高分辨率生成效果。
JiT未显著超越现有SOTA，但降低了计算成本，增强了模型的可迁移性和统一性。
高分辨率扩散生成存在固有困难，使用相同的Noise Schedule会导致训练效率低下。
调整高分辨率扩散模型的Noise Schedule可以提高信噪比，从而改善生成效果。
JiT的核心在于预测原始数据而非噪声，降低了低秩瓶颈的影响。
JiT未刷新SOTA，但可能降低SOTA的计算成本，提升低分辨率到高分辨率的可迁移性。
JiT使视觉理解和生成的架构更为统一，简化了模型设计。
JiT的提出基于原始数据处于低维子流形的事实，降低了扩散模型的建模难度。

🏷️

继续阅读

常用 Excel「奇技淫巧」，助你在新的一年处理数据事半功倍，「马到成功」
在 WPS 中删除换行符很简单。打开「查找和替换」窗口，输入 ^l 代表换行符，替换栏留空，点击确定即可。
无垠拓界基筑未来｜无问智科重磅发布业界首个物理AI数据基座平台
无问智科于2026年3月5日在德清发布了首个物理AI数据基座平台“无垠”，填补行业空白。会议聚焦具身智能数据的应用与发展，强调高质量数据的重要性，展示平台...
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...
从第一位程序员到 AI 时代的领航者：代码世界里的“她”力量
文章探讨了女性在计算机科学历史中的重要角色，强调她们在编程领域的贡献。尽管早期编程被视为女性工作，但随着行业发展，女性比例逐渐下降。提到Ada Lovel...
美食记录——朱富贵海鲜火锅
朱富贵海鲜火锅是一家人均消费约¥84的网红自助火锅店，提供十二种汤底，菜品新鲜但分类不明显。排队时间较长，服务效率低，整体体验适合海鲜爱好者。
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。

生成扩散模型漫谈（三十一）：预测数据而非噪声

内容提要

关键要点

标签

继续阅读