小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大多数杰出AI项目壮观失败的技术飞跃

该文章介绍了一款AI性能优化工具包,提供混合精度、层融合和批量大小优化等多种方法,旨在提升模型推理和训练性能,降低内存使用和成本。

大多数杰出AI项目壮观失败的技术飞跃

The New Stack
The New Stack · 2026-03-09T11:00:46Z
百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具

阶跃星辰研究团队训练了3700个大语言模型,发现超参数优化的新规律(Step Law),并开源相关工具和数据。研究表明,最优学习率和批量大小与模型和数据规模呈幂律关系,适用性广泛。

百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具

机器之心
机器之心 · 2025-03-13T02:23:32Z

本研究分析了语言模型在推理任务中的性能差异,强调学习率与批量大小比率的重要性。通过开发SmolTulu模型,优化了这两者的关系,显著提升了模型在指令跟随和数学推理方面的表现。

SmolTulu: Higher Learning Rate and Batch Size Ratio Enhance the Reasoning Ability of SLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析,论文提出了锐度感知最小化算法(GSAM),在使用逐步增大的批量大小或衰减学习率的情况下,GSAM能够更有效地收敛。数值比较表明,使用GSAM方法能够找到更平坦的局部最小值,相比于使用恒定批量大小和学习率的方法。

使用逐步增大的批量大小和衰减学习率的锐度感知最小化算法的收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z
神经网络中的超参数调优

本文介绍了优化神经网络模型中超参数的技术,包括学习率、批量大小、周期数、激活函数和Dropout技术。超参数调优技术包括手动搜索、网格搜索和随机搜索。

神经网络中的超参数调优

KDnuggets
KDnuggets · 2024-07-05T12:00:05Z

研究发现,批量大小对DP-SGD中的总梯度方差有影响。子抽样引起的方差随批量大小增加而减小,大批量可以减小有效总梯度方差。实验证实了渐近区域的相关性,并发现总梯度方差随大批量增加而进一步减小。找到了大批量同样可以减小DP-SGD迭代的有效随机噪声方差的条件。

子采样不是魔法:大批量训练对差分隐私随机优化的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码