20K合成数据就能让大模型能力飙升!还能实现模型自我迭代,上海AI Lab数据合成新范式

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

上海AI Lab研究团队提出的Condor数据合成引擎,通过合成2万条数据显著提升了Qwen模型的对话能力,并实现自我迭代。研究表明,合成数据量的增加持续提升模型性能,尤其在主观对话能力上表现突出。该方法结合世界知识树和自我反思机制,推动高质量SFT数据生成,具有重要研究价值。

🎯

关键要点

  • 上海AI Lab研究团队提出的Condor数据合成引擎通过合成2万条数据显著提升了Qwen模型的对话能力。
  • 合成数据量的增加持续提升模型性能,尤其在主观对话能力上表现突出。
  • Condor数据合成主要包含两个阶段:Condor Void和Condor Refine。
  • 使用世界知识树生成多样化的指令,提升合成数据的质量。
  • 自我反思机制用于改进初版回复,生成高质量SFT数据。
  • 使用Condor合成数据训练的模型在主观对话能力上与Qwen2.5-7B-Instruct具有竞争力。
  • 模型性能随着合成数据量的增加而提升,但在达到20K后性能增长变缓。
  • 经过Condor合成数据训练,模型在7B和72B上均实现了自我迭代,性能进一步提升。
  • Condor合成的数据在各个能力维度上均产生了增益,尤其在创造、问答和聊天方面表现明显。
  • 合成数据是大模型迭代的重要方案,仍有许多值得探索的研究问题。
➡️

继续阅读