小红花·文摘

本文介绍了在大规模模型时代中，如何选择和优化海量复杂数据集以提高大型语言模型的性能。作者详细介绍了在BetterMixture挑战中的解决方案，包括数据去重、质量过滤和多样性选择等方面的优秀表现。作者还介绍了基于Data-Juicer的扩展工具Ke-Data-Juicer的强大能力。