机器之心 ·

NeurIPS 2024 | Zhejiang University & WeChat & Tsinghua University: A Comprehensive Solution to the Inversion Problem in Diffusion Models

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

AIxiv专栏报道了微信视觉团队与浙江大学、清华大学合作提出的BELM算法，该算法解决了扩散模型反演中的不一致问题，提升了生成样本质量并确保精确反演，具有广泛应用前景，已被NeurIPS 2024接收。

🎯

🔎

BELM算法通过双向显式线性多步法，解决了扩散模型反演中的不一致问题。这一创新不仅提升了生成样本的质量，还为图像编辑和插值等下游任务提供了更为可靠的解决方案，显示出其在计算机视觉领域的广泛应用潜力。

O-BELM作为最优BELM采样器，具备精确反演和高质量采样的双重优势。实验结果表明，其在重建和采样质量上均优于传统方法，尤其在图像编辑中表现出色，能够有效避免不一致问题，适合与控制网络结合使用。

随着BELM算法的提出，扩散模型在生成任务中的应用将更加广泛。研究者们可以借助这一算法，进一步探索其在音频生成、文字生成等领域的潜力，推动AIGC技术的进步与发展。

❓

BELM算法解决了扩散模型反演中的不一致问题，提升了生成样本质量，并确保精确反演。

O-BELM在实现精确反演的同时提升了采样质量，具有稳定性和全局收敛性，优于DDIM、EDICT和BDIA。

BELM算法基于双向显式线性多步法，通过局部截断误差分析确定最优采样器系数，从而确保精确反演。

BELM算法在图像和视频的编辑、插值等下游任务中具有广泛的应用前景。

当前的采样器无法兼顾反演的准确性和采样的质量，传统的DDIM反演存在严重的不一致问题。

研究团队包括来自微信视觉团队、浙江大学和清华大学的多位研究人员，如王方懿康和张超等。

🏷️