小红花·文摘

本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性，强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集，并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术，模型在网页分类任务中的准确度显著提高。此外，提出了从网页数据中提取高质量中文文本的方法，并发布了大规模中文数据集，以支持语言模型研究。