结构之法算法之道 ·

AI绘画能力的起源：从VAE、扩散模型DDPM、DETR到ViT/Swin transformer

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

本文介绍了CV领域的典型视觉模型，包括R-CNN、YOLO、DETR等，并重点介绍了从VE、VAE到Diffusion Model的模型原理。VAE通过添加高斯噪声和让所有趋近于标准正态分布来保证模型有噪声和随机性。而DM则是一种新的生成模型，可以用于图像生成和插值。

🎯

关键要点

本文介绍了CV领域的典型视觉模型，包括R-CNN、YOLO、DETR等。
2019年后，CV领域进入生成式下的多模态时代。
VAE通过添加高斯噪声和让所有趋近于标准正态分布来保证模型有噪声和随机性。
自编码器（AE）由编码器和解码器组成，用于学习输入数据的压缩表示。
VAE在AE的基础上显性建模数据分布，使其成为合格的生成模型。
VAE的核心是通过两个神经网络建立两个概率密度分布模型，分别用于推断和生成。
VAE通过最小化损失函数来训练生成器，使得生成数据的分布与目标分布尽量接近。
VAE的Variational部分确保模型具有噪声和随机性，防止模型过于简单化。

🏷️

标签

CV领域 DETR R-CNN YOLO ai transformer 扩散模型视觉模型

➡️

继续阅读