Apple Machine Learning Research ·

重新审视大型语言模型训练中下游指标的缩放特性

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）在下游任务性能上的缩放特性，提出了一种框架来根据训练预算预测基准性能。研究发现，在固定的令牌与参数比率下，简单的幂律可以准确描述多个下游任务的准确率缩放行为。该方法优于传统的两阶段程序，并提供了预测准确率的功能形式。研究团队还发布了完整的预训练损失和下游评估结果，以支持可重复性。

🎯

关键要点

本文提出了一种直接框架来建模基准性能的缩放，挑战了传统对下游任务性能预测不可靠的看法。
研究发现，在固定的令牌与参数比率下，简单的幂律可以准确描述多个下游任务的准确率缩放行为。
该方法优于传统的两阶段程序，能够更好地进行外推，减少复合误差。
研究团队引入了预测准确率的功能形式，并考虑了在重复采样下的推理计算。
为了支持可重复性，研究团队发布了完整的预训练损失和下游评估结果。

❓

延伸问答

大型语言模型的下游任务性能如何预测？

本文提出了一种直接框架，通过训练预算建模基准性能的缩放，挑战了传统的预测不可靠的看法。

研究中发现的准确率缩放行为是什么？

研究发现，在固定的令牌与参数比率下，简单的幂律可以准确描述多个下游任务的准确率缩放行为。

该研究方法与传统方法相比有什么优势？

该方法优于传统的两阶段程序，能够更好地进行外推，减少复合误差。

研究团队如何支持结果的可重复性？

研究团队发布了完整的预训练损失和下游评估结果，以支持可重复性。

如何预测不同令牌与参数比率下的准确率？

研究引入了预测准确率的功能形式，并考虑了在重复采样下的推理计算。

该研究的模型训练使用了多少参数和令牌？

模型训练使用了最多17亿个参数和最多350亿个令牌。

🏷️

继续阅读

在Databricks上通过提示缓存加速开源模型的LLM推理
在旧金山举行的全球最大数据、应用和人工智能活动中，研究人员探讨了提示缓存技术在大型语言模型（LLM）推理中的应用。提示缓存可以消除重复请求的冗余，提高模型...
告别 GPU 独占时代：用 HAMi 实现训练推理一体化——博维智慧 GPU 虚拟化实战
博维智慧科技通过Kubernetes和HAMi实现科研实验室GPU资源的高效管理，提升了70%的GPU利用率。该方案支持训练与推理的物理隔离，优化显存使用...
BWT 与 FM-index：从 bzip2 到基因组比对
Burrows-Wheeler 变换（BWT）是一种通过对字符串进行循环旋转并按字典序排序生成的新序列，具有可逆性，能够仅凭最后一列恢复原始字符串。FM-...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
本文永久链接 – https://tonybai.com/2026/05/23/google-open-sources-ax-and-agent-subs...
Midjourney 承认使用 TPU 致研究倒退一年
Midjourney 承认因使用谷歌 TPU 导致研究进度倒退一年，团队后悔没有坚持用英伟达芯片。切换硬件带来的软件兼容性问题和调试困难是主因，这证明了英...
马斯克狂赚！Anthropic每月付SpaceXAI 12.5亿美金抢算力
SpaceXAI与AI公司Anthropic签署了每月12.5亿美元的算力租赁合同，总额接近450亿美元。由于算力短缺，Anthropic愿意支付高额租金...