FRDiff: 精细的零编码加速扩散模型的特征复用

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为Frido的特征金字塔扩散模型,通过多尺度的去噪过程将输入图像分解为尺度依赖型向量量化特征,并进行粗到细的门控操作以产生图像输出。Frido还可用于条件或跨模态图像合成,并在各种合成任务中取得了最新的FID分数。

🎯

关键要点

  • Frido是一种特征金字塔扩散模型。
  • Frido通过多尺度的去噪过程将输入图像分解为尺度依赖型向量量化特征。
  • 在图像输出时,Frido进行粗到细的门控操作以生成图像。
  • Frido可用于条件或跨模态图像合成,利用文本、场景图或图像布局等输入条件。
  • 作者进行了广泛的实验,涵盖无条件和有条件的图像合成任务。
  • Frido在多个基准测试中取得了最新的FID分数,包括COCO和OpenImages上的布局到图像、场景图到图像以及标签到图像。
🏷️

标签

➡️

继续阅读