Apple Machine Learning Research ·

超越单一提取器：重新思考HTML到文本提取在大规模语言模型预训练中的应用

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了在大规模语言模型预训练中，HTML到文本提取的重要性。研究表明，使用多种提取器可以提高数据利用率，增加71%的标记产出，并对下游任务表现产生显著影响。

🎯

关键要点

在构建大规模语言模型预训练数据集时，HTML到文本的提取是首要的预处理步骤。
现有的开源数据集主要使用单一固定的提取器，这可能导致对互联网数据的覆盖和利用不足。
不同的提取器可能导致相似的模型性能，但固定过滤管道下存活的页面可能有显著差异。
通过结合不同的提取器，可以将DCLM-Baseline的标记产出提高多达71%，同时保持基准性能。
对于结构化内容（如表格和代码块），提取器的选择对下游任务性能有显著影响，差异可达10个百分点（WikiTQ）和3个百分点（HumanEval）。

❓

延伸问答

HTML到文本提取在大规模语言模型预训练中有什么重要性？

HTML到文本提取是构建大规模语言模型预训练数据集的首要预处理步骤，影响数据的覆盖和利用。

使用多种提取器对模型性能有什么影响？

使用多种提取器可以将DCLM-Baseline的标记产出提高多达71%，同时保持基准性能。

固定提取器可能导致哪些问题？

固定提取器可能导致对互联网数据的覆盖和利用不足，影响模型的表现。

提取器选择对结构化内容的影响有多大？

提取器选择对结构化内容的下游任务性能影响显著，差异可达10个百分点（WikiTQ）和3个百分点（HumanEval）。

如何提高数据利用率？

通过结合不同的提取器，可以提高数据利用率，增加标记产出。

现有开源数据集的提取器使用情况如何？

现有开源数据集主要使用单一固定的提取器，可能导致数据覆盖不足。

🏷️

继续阅读

OpenAI开源发布1.5B的隐私过滤模型可以精确识别文本中包含的个人隐私信息
OpenAI 发布了隐私过滤模型 Privacy Filter，能够精准识别并清除个人隐私信息，如姓名、电话和邮箱。该模型体积小，适合在普通设备上运行，并...
7种特定的非常规语言模型应用
大型语言模型（LLMs）有多种创新应用，包括作为决策批评者、解读技术错误、分析法律文件、模拟历史人物、自动化复杂逻辑、制定个性化学习计划，以及理解国际沟通...
Codex在工作中的十大应用
Codex可以帮助用户高效处理工作任务，如创建工作简报、周总结、幻灯片草稿和决策备忘录。它整合日历、邮件和文档，快速生成优先事项和更新，提升工作效率。用户...
如何在客户端将网页HTML转为PDF？html2pdf.js 完全实战指南
html2pdf.js 是一个客户端 JavaScript 库，用于将网页或 DOM 元素转换为 PDF 文档。它基于 html2canvas 和 jsP...
核心训练和腹肌训练是一个东西吗？
核心训练与腹肌训练不同，核心训练强调稳定性和抗阻力能力，涉及腹部、背部和臀部等肌肉，而腹肌训练主要针对腹部肌肉。核心稳定性有助于抵抗重力，减少肌肉代偿，降...
密码管理器Bitwarden发布CLI软件包被黑公告持续时间1小时33分钟
#安全资讯密码管理器 Bitwarden 发布 CLI 软件被黑公告，持续时间约 1 小时 33 分钟，在特定时间段内安装或更新 bitwarden/c...