滑动平均视角下的权重衰减和学习率
科学空间|Scientific Spaces
·
AdamW的Weight RMS的渐近估计(上)
科学空间|Scientific Spaces
·
大型语言模型微调经验
informal
·
DeepDistill:新型大语言模型推理方法超越蒸馏模型,接近最先进水平
DEV Community
·