FineWeb 数据集:对网络进行精细分离以获取大规模最佳文本数据
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究引入了广泛的资源套件,旨在弥合其他语言的模型建设进展受限于资源稀缺的差距。通过手动验证数据、未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据。通过解决毒性对齐问题,生成了非有毒响应。希望该研究能推动 Indic LLMs 的研究和开发,并为其他语言建立一个开源蓝图。
🎯
关键要点
- 该研究引入了针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对。
- 研究旨在弥合其他语言模型建设进展受限于资源稀缺的差距。
- 方法结合了手动验证数据、未验证的数据和合成数据,建立了一个干净的开源流水线。
- 采用最佳实践进行数据的爬取、清理、标记和去重。
- 通过生成有毒提示解决毒性对齐问题,并生成非有毒响应。
- 希望本工作释放的数据、工具和资源能推动 Indic LLMs 的研究和开发。
- 为将这种努力扩展到其他语言建立一个开源蓝图。
- 创建的数据和其他文物以宽松的许可证发布。
🏷️
标签
➡️