通过困惑度相关性改善预训练数据

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

通过比较简单和复杂的数据质量评估方法,发现困惑度方法有效去除数据噪声和提升预训练数据集质量。只使用30%的原始训练数据即可改进基准模型,为自动筛选高质量数据集提供新方法。

🎯

关键要点

  • 比较简单和复杂的数据质量评估方法
  • 困惑度方法有效去除数据噪声
  • 困惑度方法提升预训练数据集质量
  • 仅使用30%的原始训练数据即可改进基准模型
  • 为自动筛选高质量数据集提供新方法
  • 大部分预训练数据可被删除而保持性能
➡️

继续阅读