小红花·文摘

该文介绍了一种名为“Synthesis Step by Step (S3)”的数据合成框架，通过使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推，从而缩小合成数据集与真实数据之间的分布差异。实验表明，该方法能够提高小型模型的性能，相较于其他方法改进了9.48%和2.73%，并且相较于人工标注数据训练的小型模型最多提高了15.17%。