一个新的104 GB LLM训练数据集已经发布!

💡 原文中文,约900字,阅读约需2分钟。
📝

内容提要

北京人工智能研究院发布了中文语料库互联网数据集,包含1000个重要中文网站的内容,总共104GB。该数据集填补了中文领域高质量数据集的空白。

🎯

关键要点

  • 北京人工智能研究院发布了中文语料库互联网数据集(CCI v1.0.0)。
  • 该数据集用于中文语言模型预训练,包含1000个重要中文网站的内容。
  • 数据集总大小为104GB,经过严格的过滤和手动检查。
  • 数据集的内容时间跨度为2001年1月到2023年11月。
  • 高质量数据集在中文领域尤为缺乏,构建安全的中文数据集面临挑战。
  • 数据处理规则包括基于规则的过滤和基于模型的过滤。
  • 数据集经过重复数据删除,确保内容质量和安全性。
➡️

继续阅读