一个新的104 GB LLM训练数据集已经发布!
💡
原文中文,约900字,阅读约需2分钟。
📝
内容提要
北京人工智能研究院发布了中文语料库互联网数据集,包含1000个重要中文网站的内容,总共104GB。该数据集填补了中文领域高质量数据集的空白。
🎯
关键要点
- 北京人工智能研究院发布了中文语料库互联网数据集(CCI v1.0.0)。
- 该数据集用于中文语言模型预训练,包含1000个重要中文网站的内容。
- 数据集总大小为104GB,经过严格的过滤和手动检查。
- 数据集的内容时间跨度为2001年1月到2023年11月。
- 高质量数据集在中文领域尤为缺乏,构建安全的中文数据集面临挑战。
- 数据处理规则包括基于规则的过滤和基于模型的过滤。
- 数据集经过重复数据删除,确保内容质量和安全性。
➡️