BriefGPT - AI 论文速递 ·

通过困惑度相关性改善预训练数据

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

本文探讨了通过优化数据选择和混合算法提升大型语言模型（LLM）的训练效果。研究表明，使用困惑度方法可以有效去除数据噪声，提高预训练数据质量。此外，提出了一种新颖的数据泄漏检测方法，能够在黑箱条件下识别预训练数据中的问题，从而增强模型性能和可靠性。

🎯

关键要点

通过优化数据选择和混合算法，可以提升大型语言模型的训练效果。
困惑度方法在去除数据噪声和提升预训练数据集质量方面表现良好。
研究表明，使用原始训练数据的30%进行训练仍能改进基准模型，表明大部分预训练数据可被删除而保持性能。
开发的高效在线数据混合算法（ODM）优化了训练过程中的数据混合比例，提高了模型性能。
对48个数据集的系统分析提供了更有效的LLMs预训练的洞见。
基于困惑度的修剪方法显著提高了后续任务的性能，尤其在数据受限的情况下。
使用模型感知数据选择方法（MATES）能够持续调整数据选择，提高后续任务性能。
提出了一种简单有效的数据泄漏检测方法，能够在黑箱条件下识别预训练数据中的问题。

❓

延伸问答

如何通过困惑度方法提升预训练数据质量？

困惑度方法能够有效去除数据噪声，从而提升预训练数据集的质量。

使用原始训练数据的30%进行训练有什么效果？

使用原始训练数据的30%仍能改进基准模型，表明大部分预训练数据可被删除而保持性能。

什么是高效在线数据混合算法（ODM）？

高效在线数据混合算法（ODM）结合了数据选择和数据混合的元素，优化了训练过程中的数据混合比例，提高了模型性能。

如何检测预训练数据中的数据泄漏？

可以通过一种基于选项内容交换的方法，利用模型日志概率分布在黑箱条件下识别数据泄漏。

基于困惑度的修剪方法对后续任务有什么影响？

基于困惑度的修剪方法显著提高了后续任务的性能，尤其在数据受限的情况下。

模型感知数据选择方法（MATES）有什么优势？

MATES能够持续调整数据选择，契合当前预训练进展，并在后续任务中显著提高性能。

🏷️

标签

困惑度大型语言模型数据泄漏检测数据选择混合算法

➡️

继续阅读

后训练正成为真正前沿：Kimi K3九大专家蒸馏灌顶内幕
训练会杀死创造力，把AI变成另外一个搜索引擎，但后训练每天用强化学习重新发明人类思维，难道这不算另一种更狠的格式化。 AI圈最近三年在卷什么，后训练。这...
千百度并购本原智数成港股AI数据标注第一股
(全球TMT 2026年07月28日讯)通过战略并购国内顶尖AI数据服务商本原智数，昔日的女鞋零售商千百度已成 […]
谷歌推出Chrome for Linux Arm64原生版支持账号数据同步和DRM数字版权保护机制
#软件资讯终于！谷歌推出 Chrome for Linux Arm64 原生版，附带 Widevine DRM 版权保护机制，可观看各类视频网站。值得注...
月之暗面推出Kimi大使计划成功入选者可获得API额度/提前体验新产品和模型
#人工智能月之暗面面向全球 AI 社区用户推出 Kimi 大使计划，成功入选者可以获得 Kimi API 额度、提前体验新模型、产品新功能等。Kimi ...
苹果正式在美国设备推出租赁计划(订阅制) 按月付费到期可换机或归还设备
#手机数码苹果正式在美国推出设备租赁计划 (硬件订阅制)，用户每月支付 20~40 美元就可以使用设备，但到期后用户需归还设备，因为没有设备所有权。对追...
基于 ZEGO SDK 实现微信小程序直播连麦
小程序直播连麦不是「开个 live-pusher 就完事」的功能。本文以 ZEGO 实时音视频 SDK（ZEGO Express SDK）为主线，从架构...