小红花·文摘

本文探讨了通过优化数据选择和混合算法提升大型语言模型（LLM）的训练效果。研究表明，使用困惑度方法可以有效去除数据噪声，提高预训练数据质量。此外，提出了一种新颖的数据泄漏检测方法，能够在黑箱条件下识别预训练数据中的问题，从而增强模型性能和可靠性。