MSRA:视觉生成六大技术问题
原文中文,约3600字,阅读约需9分钟。发表于: 。最本质问题是视觉信号分析
微软亚洲研究院的研究员古纾旸认为,视觉信号拆分是视觉生成的核心问题。目前常见的拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分,但这些方式都无法保证等变性。文章还讨论了视觉信号拆分问题、大语言模型的成功原因、扩散模型是否是最大似然模型以及扩散模型的scaling law等问题。文章提出了一些解决方案,但仍然存在挑战。
最本质问题是视觉信号分析
微软亚洲研究院的研究员古纾旸认为,视觉信号拆分是视觉生成的核心问题。目前常见的拆分方式包括图像块拆分、深度拆分、噪声强度拆分和可学习拆分,但这些方式都无法保证等变性。文章还讨论了视觉信号拆分问题、大语言模型的成功原因、扩散模型是否是最大似然模型以及扩散模型的scaling law等问题。文章提出了一些解决方案,但仍然存在挑战。