小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何加速语言模型的训练

本文探讨了加速深度学习模型训练的技术,特别是语言模型。重点包括使用AdamW优化器、余弦衰减学习率调度器、序列长度调度、随机重启和梯度裁剪等方法,以提高模型的收敛速度和稳定性,并减少内存消耗。

如何加速语言模型的训练

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-30T14:49:19Z

本研究提出神经热力学定律(NTL),为大语言模型训练提供理论支持,并通过热力学原理指导学习率调度,具有重要意义。

Neural Thermodynamic Law for Training Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了一种多幂律经验法则,揭示了大型语言模型在不同学习率调度下的预训练损失演变,能够有效预测损失曲线并优化学习率调度,超越传统方法。

A Multi-Power Law Model for Predicting Loss Curves under Different Learning Rate Schedules

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种元梯度下降(MGD)方法,旨在优化大规模机器学习模型的训练配置。MGD通过高效计算元梯度和“平滑模型训练”框架,在数据集选择和学习率调度方面显著提升了效果,优于现有的数据中毒攻击。

Optimizing Machine Learning Training with Metagradient Descent

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z
解锁河谷损失景观:为何热身-稳定-衰减学习率表现优异

本文探讨了“热身-稳定-衰减”学习率调度在神经网络训练中的有效性,强调其与“河谷”损失景观的关系。研究表明,该方法通过低学习率找到河谷,保持稳定并逐渐下降,从而优化复杂模型的训练。

解锁河谷损失景观:为何热身-稳定-衰减学习率表现优异

DEV Community
DEV Community · 2024-11-02T07:15:49Z

本文介绍了热身-稳定-衰减(WSD)学习率调度方法,解决语言模型训练中预算预设的问题。WSD通过高学习率和快速衰减优化模型,允许无限迭代,表现出非传统损失曲线。研究表明,WSD-S在不同预算下优于其他方法。

理解热身-稳定-衰减学习率:一种河谷损失景观视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码