超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

本文探讨了在大规模语言模型预训练中,HTML到文本提取的重要性。研究表明,使用多种提取器可以提高数据利用率,增加71%的标记产出,并对下游任务表现产生显著影响。

🎯

关键要点

  • 在构建大规模语言模型预训练数据集时,HTML到文本的提取是首要的预处理步骤。
  • 现有的开源数据集主要使用单一固定的提取器,这可能导致对互联网数据的覆盖和利用不足。
  • 不同的提取器可能导致相似的模型性能,但固定过滤管道下存活的页面可能有显著差异。
  • 通过结合不同的提取器,可以将DCLM-Baseline的标记产出提高多达71%,同时保持基准性能。
  • 对于结构化内容(如表格和代码块),提取器的选择对下游任务性能有显著影响,差异可达10个百分点(WikiTQ)和3个百分点(HumanEval)。

延伸问答

HTML到文本提取在大规模语言模型预训练中有什么重要性?

HTML到文本提取是构建大规模语言模型预训练数据集的首要预处理步骤,影响数据的覆盖和利用。

使用多种提取器对模型性能有什么影响?

使用多种提取器可以将DCLM-Baseline的标记产出提高多达71%,同时保持基准性能。

固定提取器可能导致哪些问题?

固定提取器可能导致对互联网数据的覆盖和利用不足,影响模型的表现。

提取器选择对结构化内容的影响有多大?

提取器选择对结构化内容的下游任务性能影响显著,差异可达10个百分点(WikiTQ)和3个百分点(HumanEval)。

如何提高数据利用率?

通过结合不同的提取器,可以提高数据利用率,增加标记产出。

现有开源数据集的提取器使用情况如何?

现有开源数据集主要使用单一固定的提取器,可能导致数据覆盖不足。

➡️

继续阅读