💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
本文探讨了在大规模语言模型预训练中,HTML到文本提取的重要性。研究表明,使用多种提取器可以提高数据利用率,增加71%的标记产出,并对下游任务表现产生显著影响。
🎯
关键要点
- 在构建大规模语言模型预训练数据集时,HTML到文本的提取是首要的预处理步骤。
- 现有的开源数据集主要使用单一固定的提取器,这可能导致对互联网数据的覆盖和利用不足。
- 不同的提取器可能导致相似的模型性能,但固定过滤管道下存活的页面可能有显著差异。
- 通过结合不同的提取器,可以将DCLM-Baseline的标记产出提高多达71%,同时保持基准性能。
- 对于结构化内容(如表格和代码块),提取器的选择对下游任务性能有显著影响,差异可达10个百分点(WikiTQ)和3个百分点(HumanEval)。
❓
延伸问答
HTML到文本提取在大规模语言模型预训练中有什么重要性?
HTML到文本提取是构建大规模语言模型预训练数据集的首要预处理步骤,影响数据的覆盖和利用。
使用多种提取器对模型性能有什么影响?
使用多种提取器可以将DCLM-Baseline的标记产出提高多达71%,同时保持基准性能。
固定提取器可能导致哪些问题?
固定提取器可能导致对互联网数据的覆盖和利用不足,影响模型的表现。
提取器选择对结构化内容的影响有多大?
提取器选择对结构化内容的下游任务性能影响显著,差异可达10个百分点(WikiTQ)和3个百分点(HumanEval)。
如何提高数据利用率?
通过结合不同的提取器,可以提高数据利用率,增加标记产出。
现有开源数据集的提取器使用情况如何?
现有开源数据集主要使用单一固定的提取器,可能导致数据覆盖不足。
➡️