小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
重新审视大型语言模型训练中下游指标的缩放特性

本文探讨了大型语言模型(LLMs)在下游任务性能上的缩放特性,提出了一种框架来根据训练预算预测基准性能。研究发现,在固定的令牌与参数比率下,简单的幂律可以准确描述多个下游任务的准确率缩放行为。该方法优于传统的两阶段程序,并提供了预测准确率的功能形式。研究团队还发布了完整的预训练损失和下游评估结果,以支持可重复性。

重新审视大型语言模型训练中下游指标的缩放特性

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-26T00:00:00Z

本研究提出了一种多幂律经验法则,揭示了大型语言模型在不同学习率调度下的预训练损失演变,能够有效预测损失曲线并优化学习率调度,超越传统方法。

A Multi-Power Law Model for Predicting Loss Curves under Different Learning Rate Schedules

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本文探讨大型语言模型(LLM)在数学推理中的挑战,研究预训练损失、监督数据和增强数据对模型性能的影响。结果表明,预训练损失是更好的性能指标,数据量与模型性能呈对数线性关系。通过合成数据和负面样本微调,模型在多步推理任务中表现出色,并提出了一种新评估方法以识别数学误解,从而提升推理能力。这些研究为LLM的有效训练提供了新见解。

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

清华大学和智谱AI团队的研究发现,大模型的涌现能力与预训练损失的关系比模型参数更紧密。解锁涌现能力的关键在于优化预训练损失至关键值以下。

大模型的涌现能力与预训练loss的关系比模型参数更紧密 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-04-28T02:16:00Z

本论文提出了一种阶段递增训练的替代框架RaPTr,通过逐步增加路径长度,在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能,对QA任务和SuperGLUE的改进幅度可达1-5%。理论基础证明了子网络在各阶段的复杂性递增,以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

通过渐进子网络实现高效的分步预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码