BriefGPT - AI 论文速递 ·

AutoPureData: 网络数据的自动过滤用于 LLM 微调

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性，强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集，并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术，模型在网页分类任务中的准确度显著提高。此外，提出了从网页数据中提取高质量中文文本的方法，并发布了大规模中文数据集，以支持语言模型研究。

🎯

关键要点

即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型。
研究创建了一个包含1030万个网站创作者自我描述的新数据集，提取了关于他们的兴趣、社交角色和地理隶属的信息。
实验揭示了一系列数据筛选中的隐含偏好，发现一些质量分类器和语言标识过滤器的影响。
通过知识蒸馏技术，模型在以URL为基础的网页分类任务中准确度提高了9%。
提出了一种利用搜索引擎对大型语言模型进行网络增强的方法，显著提升了模型在知识密集型任务中的表现。
发布了最大和最新的大规模高质量中文网络文本ChineseWebText，包含1.42 TB的文本，并为每个文本分配了质量评分。
通过比较数据质量的评估方法，发现困惑度方法在去除数据噪声和提升预训练数据集质量方面效果较好。
提出了一种从网页规模数据集中识别和过滤有害文本的方法，证明过滤后的数据集上训练的语言模型产生有害文本的倾向更低。

❓

延伸问答

如何利用过滤的网络数据训练大型语言模型？

可以通过使用经过过滤和去重的网络数据来训练大型语言模型，达到良好的性能，且不需要过多依赖高质量的非网络数据。

研究中创建了什么样的数据集？

研究创建了一个包含1030万个网站创作者自我描述的数据集，提取了他们的兴趣、社交角色和地理隶属的信息。

知识蒸馏技术如何提高模型的准确度？

通过知识蒸馏技术，模型在以URL为基础的网页分类任务中的准确度提高了9%。

如何从网页数据中提取高质量中文文本？

提出了EvalWeb工具链，用于从嘈杂的网络数据中提取干净的中文文本，支持大型语言模型的研究。

困惑度方法在数据质量评估中有什么优势？

困惑度方法在去除数据噪声和提升预训练数据集质量方面效果较好，能够在仅使用原始训练数据的30%进行训练的情况下改进基准模型。

过滤有害文本的方法是什么？

提出了一种通过计算特定文档条件下的触发词组的对数似然来识别和过滤有害文本的方法，证明过滤后的数据集上训练的模型产生有害文本的倾向更低。

🏷️