KodCode:一个多样化、具有挑战性且可验证的合成编程数据集
📝
内容提要
本研究针对获取高质量、可验证的编程训练数据的难题,提出了KodCode这一合成数据集,它涵盖了从简单到复杂的编程任务并确保正确性。通过系统验证的问答和测试三元组,KodCode为大规模语言模型的监督微调提供了丰富的、可靠的数据,实验证明该数据集在多个编程基准上取得了领先性能。
🏷️
标签
➡️