ChineseWebText 2.0:具有多维度和细粒度信息的大规模高质量中文网络文本
📝
内容提要
本研究针对现有中文预训练数据缺乏细粒度和多维度信息的问题,提出了一种新工具链MDFG-tool,以构建高质量的中文数据集。研究的主要贡献是推出了中国最大的高质量细粒度文本数据集ChineseWebText2.0,具有3.8TB的数据量和丰富的质量评分、领域标签及毒性评分,显著提升了大语言模型(LLMs)的训练质量和可靠性。
➡️