AI绘画能力的起源:从VAE、扩散模型DDPM、DETR到ViT/Swin transformer
原文中文,约4500字,阅读约需11分钟。发表于: 。2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。
本文介绍了CV领域的典型视觉模型,包括R-CNN、YOLO、DETR等,并重点介绍了从VE、VAE到Diffusion Model的模型原理。VAE通过添加高斯噪声和让所有趋近于标准正态分布来保证模型有噪声和随机性。而DM则是一种新的生成模型,可以用于图像生成和插值。