SoftDedup: 提高语言模型预训练速度的高效数据重新加权方法
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
研究发现语言模型数据集存在大量冗余数据,导致训练模型时有超过1%的非提示输出直接复制自训练数据。研究团队开发了两个工具,能够定位冗余数据并通过去重训练模型,减少内存化文本的发生。这样做不仅减少了训练和测试重叠,还提高了模型的准确性。工作和代码已在指定的https网址上发布。
🎯
关键要点
- 研究发现语言模型数据集包含大量近似重复的示例和长的重复子串。
- 超过1%的非提示输出是直接从训练数据复制的。
- 开发了两个工具来定位训练数据集中的冗余数据。
- 通过去重训练模型,减少内存化文本的发生。
- 减少了训练和测试重叠,提高了模型的准确性。
- 工作和代码已在指定的https网址上发布。
➡️