崩溃还是繁荣?自我生成世界中合成数据的风险与机遇
原文中文,约400字,阅读约需1分钟。发表于: 。本研究探讨了人工智能生成内容在互联网日益普及带来的挑战,特别是生成模型如何在现有数据上进行预训练。研究对比了“替代”与“累积”两种模型训练场景,发现后者能有效避免模型崩溃,而新提出的折衷方案表明,保持固定计算预算时,模型的真实数据测试损失会比“累积”场景更大,但会在一定水平保持稳定。这些发现为未来生成模型的表现预测提供了重要洞见,强调了合成数据的上下文依赖价值。
本文探讨了自我消耗循环中训练生成模型的新挑战,构建了评估混合训练对模型学习数据分布影响的理论框架。分析表明,当数据集足够大或真实数据比例高时,总变异距离可有效控制。研究还揭示了合成数据增加引起的阶段转变,并提供了扩散模型的最佳早停策略的见解。