本研究提出了一种基于Koopman理论的离线蒸馏框架,旨在降低扩散生成模型的计算成本。该框架通过编码噪声输入实现单步生成,保持语义一致性,并在标准测试中将FID得分提高了40%。
本研究探讨了在缺乏成对输入输出信号的情况下,如何准确估计非线性音频效果。提出了一种基于扩散生成模型的新方法,并与对抗方法进行了比较。实验结果表明,扩散方法在数据可用性上更为稳定,而对抗方法在估计明显失真效果方面表现更佳,显示了扩散模型在音乐技术中的潜力。
本研究提出了一种新方法,通过连续时间强化学习微调扩散生成模型,解决了传统离散时间强化学习的误差问题。实验结果表明,该方法在大型文本到图像模型的微调任务中表现优异。
本文提出了Dream-in-4D方法,通过扩散生成模型实现从文本和图像生成动态3D场景。该方法结合静态3D资源和可变形神经光辐射场,显著提高了图像质量和动态一致性,解决了现有模型在运动和几何一致性方面的不足。
本研究提出一个统一框架,解决扩散生成模型在数据生成中设计自由度不足的问题。该框架允许灵活选择表示方式、先验分布和噪声调度。新方法引入软条件模型,连接传统扩散模型与自回归模型,提高训练效率和生成能力。
本文研究了优化证据下界(ELBO)对扩散生成模型(如DDPMs)训练有效性的理论基础问题,并建立了连续时间扩散过程的密度公式。研究发现,训练DDPMs的优化目标的最小化几乎与真实目标一致,为使用ELBO优化DDPMs提供了理论支持。同时,提出了一种基于评分差异流的新方法,可以将源分布向目标分布推进,具有潜在的应用价值。
研究人员提出了一种名为VLOGGER的人体视频生成方法,通过扩展最新的扩散生成模型,在人体到3D动作扩散模型和扩散式架构两方面加入空间和时间控制,实现了高质量视频生成的支持。使用新的更大规模的数据集进行训练和评估,VLOGGER在图像质量、身份保持、时间一致性和生成上半身手势等方面优于现有方法,并展示了在视频编辑和个性化方面的应用。
本研究提出了一种名为SDDGR的新方法,利用扩散生成模型和预训练的文本到扩散网络生成逼真多样的合成图像。实验结果表明,SDDGR在类别增量目标检测场景中优于现有算法,达到最新技术水平。
通过Dream-in-4D方法,使用扩散生成模型从文本和图像生成动态的3D场景。该方法通过学习静态资源、形变分离和视频扩散指导的运动来提高生成效果。用户偏好研究证明了该方法在图像质量、动态一致性和文本保真度方面的显著提高。该方法还可用于可控的生成任务。
本文介绍了一种新颖的方法Diffusion-EDFs,将SE(3)-等变性引入扩散生成模型中。该方法展示了卓越的数据效率,只需5至10个任务演示进行有效的端到端训练,并且相比以前的基于扩散的操作方法,具有更好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。