Apple Machine Learning Research ·

当预训练数据与目标任务匹配时，语言模型性能提升

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文提出了一种基准目标排名方法（BETR），通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档，利用相似性评分训练轻量级分类器。研究表明，BETR在多个任务上显著提升性能，且更大的模型需要更少的过滤，强调数据选择策略需适应模型规模。

🎯

关键要点

每种数据选择方法都有其目标，通常通过基准驱动的迭代过程隐含出现。
本文提出了一种基准目标排名方法（BETR），通过比较预训练文档与基准训练示例的相似性来选择数据。
BETR将基准示例和预训练文档嵌入共享空间，通过相似性评分训练轻量级分类器。
研究表明，BETR在多个任务上显著提升性能，尤其是在500个模型的训练中表现突出。
BETR在对比中实现了2.1倍的计算增益，相较于未过滤数据提升了4.7倍。
在所有规模的模型中，BETR在10个任务中有9个任务表现优于基线。
BETR在针对与评估套件不相交的多样化基准时，仍然能够匹配或超越基线表现。
分析显示，较大的模型需要更少的过滤，强调数据选择策略需适应模型规模。

❓

延伸问答

什么是基准目标排名方法（BETR）？

BETR是一种通过比较预训练文档与基准训练示例的相似性来选择数据的方法。

BETR如何提升语言模型的性能？

BETR通过将基准示例和预训练文档嵌入共享空间并利用相似性评分来优化数据选择，从而提升性能。

BETR在多个任务上的表现如何？

BETR在10个任务中有9个任务的表现优于基线，尤其在500个模型的训练中表现突出。

使用BETR与未过滤数据相比，计算增益是多少？

BETR实现了2.1倍的计算增益，相较于未过滤数据提升了4.7倍。

较大的模型在使用BETR时需要怎样的数据过滤策略？

较大的模型需要更少的过滤，强调数据选择策略需适应模型规模。

BETR在多样化基准上的表现如何？

BETR在针对与评估套件不相交的多样化基准时，仍然能够匹配或超越基线表现。

🏷️

继续阅读

Superpowers 为什么能执行长任务且确保交付质量？
Superpowers通过明确需求沟通和任务拆分，优化了AI执行长任务的流程。采用头脑风暴、计划撰写和计划执行的步骤，确保高质量输出。子代理驱动开发模式使...
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...
Nvidia已在规划N2X和N3X芯片——目标是《星际迷航》电脑
Nvidia首席执行官黄仁勋在2026年台北的Computex上宣布将推出N2X和N3X芯片，旨在实现类似《星际迷航》的智能电脑，用户可通过语音与电脑互动...
如何在不造成IT安全漏洞的情况下从工厂车间获取操作数据
文章讨论了信息技术（IT）与操作技术（OT）数据整合的重要性，强调在人工智能时代，企业需快速获取相关数据以保持竞争力。传统工具难以满足现代需求，工程师们转...
驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
人工智能论文评审：通过人类反馈训练语言模型以遵循指令（InstructGPT）
GPT-3在自然语言处理上取得了重大突破，但未能有效转化为助手。为此，OpenAI推出了InstructGPT，通过人类反馈训练模型更好地遵循指令，强调模...