小红花·文摘

本文研究了在自我消耗循环中训练生成模型的新挑战，通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。研究发现，在混合训练数据集大小足够大或真实数据比例足够大的条件下，可以有效控制数据分布的变异距离。此外，研究还提供了关于在自我消耗循环中最佳早停策略的细微见解。