量子位 ·

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

上海AI Lab研究团队提出的Condor数据合成引擎，通过合成2万条数据显著提升了Qwen模型的对话能力，并实现自我迭代。研究表明，合成数据量的增加持续提升模型性能，尤其在主观对话能力上表现突出。该方法结合世界知识树和自我反思机制，推动高质量SFT数据生成，具有重要研究价值。

🎯

🔎

Condor数据合成引擎通过合成2万条数据显著提升了模型的对话能力，但在数据量达到20K后，性能增长开始减缓。这表明，虽然合成数据在提升模型性能方面具有显著优势，但也存在一个临界点，超出后收益递减，研究者需关注数据量与性能提升之间的平衡。

研究表明，经过Condor合成数据训练的模型在7B和72B上均实现了自我迭代，进一步提升了性能。这一发现强调了合成数据在模型自我改进中的重要性，未来的研究可以探索如何更有效地利用合成数据促进模型的持续学习与优化。

Condor引入世界知识树生成多样化的指令，提升合成数据的质量。这种方法不仅丰富了数据的内容，也增强了模型在不同任务中的适应能力。研究者在设计合成任务时，应重视指令的多样性，以确保模型能够应对更复杂的对话场景。

❓

Condor数据合成引擎通过合成数据显著提升模型的对话能力，并实现自我迭代。

合成数据量的增加持续提升模型性能，但在达到20K后，性能增长变缓。

Condor数据合成主要包含两个阶段：Condor Void和Condor Refine。

自我反思机制用于改进初版回复，生成高质量的SFT数据。

使用Condor合成数据训练的模型在主观对话能力上与Qwen2.5-7B-Instruct具有竞争力。

合成数据是大模型迭代的重要方案，能够有效提升模型的各项能力。

🏷️