自我改善的扩散模型和合成数据

本文针对人工智能领域中真实数据匮乏的问题，提出了一种新颖的训练方法——自我改善的扩散模型与合成数据（SIMS），旨在利用自合成数据为生成过程提供负引导，避免模型自噬混乱（MAD）。研究结果表明，SIMS能在CIFAR-10和ImageNet-64生成任务中创下新纪录，并能够以迭代方式训练在自生成合成数据上而不影响模型质量，显示出其在减轻偏见和确保公平性方面的潜力。

本文研究了在自我消耗循环中训练生成模型的新挑战，通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。研究发现，在混合训练数据集大小足够大或真实数据比例足够大的条件下，可以有效控制模型生成的合成数据分布与原始真实数据分布之间的总变异距离。同时，研究还提供了关于在自我消耗循环中最佳早停策略的细微见解。

合成数据分布扩散模型早停策略生成模型自我消耗循环递归训练