本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性,强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集,并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术,模型在网页分类任务中的准确度显著提高。此外,提出了从网页数据中提取高质量中文文本的方法,并发布了大规模中文数据集,以支持语言模型研究。
完成下面两步后,将自动完成登录并继续当前操作。