MSRA:视觉生成六大技术问题

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

微软亚洲研究院的研究员古纾旸认为,视觉信号拆分是视觉生成的核心问题。目前常见的拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分,但这些方式都无法保证等变性。文章还讨论了视觉信号拆分问题、大语言模型的成功原因、扩散模型是否是最大似然模型以及扩散模型的scaling law等问题。文章提出了一些解决方案,但仍然存在挑战。

🎯

关键要点

  • 视觉信号拆分是视觉生成的核心问题。

  • 生成模型需要将复杂信号拆分为多个简单分布拟合问题。

  • 常见的视觉信号拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分,但都无法保证等变性。

  • 大语言模型的成功源于文本信号拆分的等变性。

  • 图像块拆分存在独立的inductive bias,导致不同任务学习目标差异。

  • 深度拆分和噪声强度拆分也存在缺乏等变性的问题。

  • 可学习拆分方式尚未成功保证等变性,且存在挑战。

  • 不等变性导致模型参数量爆炸,实际不可行。

  • RQVAE编码可能导致无效编码问题。

  • 扩散模型并非最大似然模型,训练中损失函数权重不满足单调关系。

  • 得分匹配与非规范化最大似然密切相关,学习难度随噪声强度变化。

  • 平衡扩散模型中不同噪声步间的冲突可通过调整损失函数或采样频率。

  • 扩散模型是否存在scaling law取决于评估模型质量的指标选择。

➡️

继续阅读