SoftDedup: 提高语言模型预训练速度的高效数据重新加权方法

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

研究发现语言模型数据集存在大量冗余数据,导致训练模型时有超过1%的非提示输出直接复制自训练数据。研究团队开发了两个工具,能够定位冗余数据并通过去重训练模型,减少内存化文本的发生。这样做不仅减少了训练和测试重叠,还提高了模型的准确性。工作和代码已在指定的https网址上发布。

🎯

关键要点

  • 研究发现语言模型数据集包含大量近似重复的示例和长的重复子串。
  • 超过1%的非提示输出是直接从训练数据复制的。
  • 开发了两个工具来定位训练数据集中的冗余数据。
  • 通过去重训练模型,减少内存化文本的发生。
  • 减少了训练和测试重叠,提高了模型的准确性。
  • 工作和代码已在指定的https网址上发布。
➡️

继续阅读