Apple Machine Learning Research ·

网络改写：计算与数据高效的语言建模方案

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了一种名为Web Rephrase Augmented Pre-training (WRAP)的方法，该方法使用现成的指令调整模型对网络文档进行改写，以特定风格如“维基百科”或“问答格式”进行预训练。研究表明，使用WRAP可以加速预训练并提高模型性能。通过使用合成的改写数据，可以提供更多样化的训练数据，从而提高模型在不同任务上的表现。合成数据具有更高的效用，因为它包含更多样化的风格，并且比网络抓取的数据质量更高。

🎯

关键要点

提出了一种名为Web Rephrase Augmented Pre-training (WRAP)的方法。
WRAP使用现成的指令调整模型对网络文档进行特定风格的改写。
WRAP可以加速预训练，提升模型性能。
使用合成的改写数据提供更多样化的训练数据。
合成数据的效用更高，包含更多样化的风格。
WRAP在C4数据集上加速预训练约3倍。
在相同的预训练计算预算下，模型在不同子集上的困惑度平均提高超过10%。
模型在13个任务上的零-shot问答准确率提高超过2%。
研究了改写风格对模型性能的影响。
合成数据的质量高于网络抓取的数据，反映了下游评估风格的多样性。

❓

延伸问答

WRAP方法的主要功能是什么？

WRAP方法主要用于对网络文档进行特定风格的改写，以加速预训练并提升模型性能。

使用WRAP方法的好处有哪些？

使用WRAP方法可以加速预训练约3倍，并在相同计算预算下提高模型的困惑度和零-shot问答准确率。

合成数据与网络抓取数据相比有什么优势？

合成数据的质量更高，包含更多样化的风格，能够更好地反映下游评估的多样性。

WRAP方法如何影响模型的性能？

WRAP方法通过提供多样化的训练数据，改善模型在不同任务上的表现，尤其是在零-shot问答任务中。

WRAP方法在C4数据集上的表现如何？

在C4数据集上，WRAP方法加速预训练约3倍，并在不同子集上平均提高困惑度超过10%。

WRAP方法是如何进行预训练的？

WRAP方法通过使用现成的指令调整模型，对网络文档进行特定风格的改写，结合真实和合成的改写数据进行预训练。

🏷️

继续阅读

【Rust日报】2026-05-23 CX：一门用 Rust 编写的系统语言发布 0.1.0
CX：一门用 Rust 编写的系统语言发布 0.1.0 CX 是一个用 Rust 编写的系统编程语言，面向游戏引擎、工具开发等需要可预测内存行为的场景，现...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
Google 在 I/O ’26 大会上推出了以 Agent 为核心的云原生计算基础设施，包括开源项目 AX 和 Agent Substrate。该系统通...
肖恩·托马斯：为何Postgres缺乏透明数据加密
Postgres数据库缺乏透明数据加密（TDE）功能，尽管合规性要求迫切。社区对TDE的需求和设计存在分歧，导致多次提案未能达成共识。目前的实现各自不兼容...
Databricks Genie 如何在金融服务中实现数据访问的民主化
Databricks Genie 是一款专为金融服务设计的对话式人工智能界面，允许业务用户用简单英语提问并自动转换为受管控的 SQL 查询。它解决了数据民...
Neurovia AI参展ISNR2026，首次公开NeuroStream视觉数据底座
Neurovia AI在ISNR2026展会上首次展示了NeuroStream视觉数据平台，该平台通过“位图矢量化算法”将12.15GB的4K视频压缩至4...
安全团队如何向董事会报告网络风险
文章讨论了如何将网络风险转化为财务语言，以便董事会理解并优先考虑安全投资。通过概率金融建模（如蒙特卡洛模拟），安全团队能够生成基于实际资产价值的损失范围，...