自我改善的扩散模型和合成数据

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了在自我消耗循环中训练生成模型的新挑战,通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。研究发现,在混合训练数据集大小足够大或真实数据比例足够大的条件下,可以有效控制模型生成的合成数据分布与原始真实数据分布之间的总变异距离。同时,研究还提供了关于在自我消耗循环中最佳早停策略的细微见解。

原文中文,约400字,阅读约需1分钟。
阅读原文