量子位 ·

MSRA：视觉生成六大技术问题

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

微软亚洲研究院的研究员古纾旸认为，视觉信号拆分是视觉生成的核心问题。目前常见的拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分，但这些方式都无法保证等变性。文章还讨论了视觉信号拆分问题、大语言模型的成功原因、扩散模型是否是最大似然模型以及扩散模型的scaling law等问题。文章提出了一些解决方案，但仍然存在挑战。

🎯

关键要点

视觉信号拆分是视觉生成的核心问题。
生成模型需要将复杂信号拆分为多个简单分布拟合问题。
常见的视觉信号拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分，但都无法保证等变性。
大语言模型的成功源于文本信号拆分的等变性。
图像块拆分存在独立的inductive bias，导致不同任务学习目标差异。
深度拆分和噪声强度拆分也存在缺乏等变性的问题。
可学习拆分方式尚未成功保证等变性，且存在挑战。
不等变性导致模型参数量爆炸，实际不可行。
RQVAE编码可能导致无效编码问题。
扩散模型并非最大似然模型，训练中损失函数权重不满足单调关系。
得分匹配与非规范化最大似然密切相关，学习难度随噪声强度变化。
平衡扩散模型中不同噪声步间的冲突可通过调整损失函数或采样频率。
扩散模型是否存在scaling law取决于评估模型质量的指标选择。

❓

延伸问答

视觉信号拆分的核心问题是什么？

视觉信号拆分是视觉生成的核心问题，涉及将复杂信号拆分为多个简单分布拟合问题。

常见的视觉信号拆分方式有哪些？

常见的视觉信号拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分。

为什么大语言模型能取得成功？

大语言模型的成功源于文本信号拆分的等变性，使得模型可以同时解决多个相关性高的任务。

扩散模型是否是最大似然模型？

扩散模型并非最大似然模型，训练中损失函数权重不满足单调关系。

如何平衡扩散模型中不同噪声步间的冲突？

可以通过调整损失函数或采样频率来平衡扩散模型中不同噪声步间的冲突。

扩散模型是否存在scaling law？

扩散模型是否存在scaling law取决于评估模型质量的指标选择。

🏷️