通过重叠激活重计算优化大型模型训练
原文中文,约400字,阅读约需1分钟。发表于: 。设计了一个新的重计算框架 Lynx,通过将重计算与训练管道中发生的通信重叠来减少开销,其中包括优化调度算法(OPT)和基于启发式的调度算法(HEU),OPT 实现了全局最优但搜索时间较长,HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%,使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示,OPT 和 HEU 在性能上都优于现有的重计算方法(例如...
研究人员设计了重计算框架Lynx,通过重叠重计算和训练管道通信来减少开销。优化调度算法(OPT)和基于启发式的调度算法(HEU)优于现有重计算方法,性能提升1.02-1.53倍。HEU的搜索时间为0.16秒,与OPT相似。