小红花·文摘

权重衰减和学习率在大语言模型预训练中至关重要。本文从滑动平均的角度探讨如何合理设置这两个参数，以增强模型的记忆能力，避免遗忘早期数据，同时防止欠拟合和权重爆炸。

滑动平均视角下的权重衰减和学习率

科学空间|Scientific Spaces ·

本文探讨了AdamW优化器中权重RMS的渐近估计，指出其与学习率和权重衰减相关。通过平均场近似，得出权重RMS可预估的结论，强调这一结果的反直觉性。

AdamW的Weight RMS的渐近估计（上）

科学空间|Scientific Spaces ·

本研究探讨了大型语言模型预训练中的超参数调优，重点分析了学习率和权重衰减的关系，并提出了一种预测最佳权重衰减的新方法，为超参数选择提供理论支持。

电力线：大型语言模型预训练中的权重衰减和批处理大小的缩放法则

BriefGPT - AI 论文速递 ·

Moonshot AI 推出 Muon 和 Moonlight：利用高效训练技术优化大规模语言模型

实时互动网 ·

月之暗面团队改进了OpenAI的Muon优化器，使算力需求降低48%。新版本适用于更大模型，并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度，提升了训练效率和性能。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

量子位 ·

第27天：大型语言模型（LLMs）的正则化技术

DEV Community ·

本研究探讨了权重衰减和L2正则化对深度神经网络训练的影响，尤其是在注意力层中。结果显示，权重衰减显著降低参数矩阵的秩，可能导致语言模型性能下降。

权重衰减诱导低秩注意力层

BriefGPT - AI 论文速递 ·

本文研究了两层ReLU网络在权重衰减正则化下与其凸松弛的最优性差距。结果显示，在随机数据下，原问题与松弛问题的最优性差距可用O(√log n)界定。简单算法能在多项式时间内解决非凸问题。合理假设下，随机初始化的局部梯度法几乎总能收敛到低训练损失点，改进了现有结果并提供新见解。

多神经元释放了凸松弛下ReLU网络的表达能力

BriefGPT - AI 论文速递 ·

本研究分析了至少包含两个线性层的神经网络，解决了深度神经网络收敛时的神经崩溃问题。结果显示，使用带权重衰减的梯度下降训练可以普遍避免神经崩溃，为理解神经网络训练提供了新视角。

带权重衰减训练的宽神经网络显著展现神经崩溃的现象

BriefGPT - AI 论文速递 ·

本文讨论了权重衰减算法Weight Decay的缺点，并介绍了一种名为Scheduled Weight Decay的算法来解决这些问题。Scheduled Weight Decay通过调整权重衰减的强度来抑制梯度范数，改善模型的泛化能力。文章认为Weight Decay的缺点是被忽视的，而Scheduled Weight Decay是一种解决方案，但并非终极答案。

NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷

六虎 ·

该研究提出了一种通过分析神经网络中优化轨迹的方法来理解机制，并揭示了动量、权重衰减和批处理大小等优化选择之间的差别和相互作用。实验证明了该方法在大规模视觉和语言环境下的价值。

神经网络和 LLMs 中的优化轨迹的标志：长度、曲线和死胡同

BriefGPT - AI 论文速递 ·

本文介绍了一种通过修改网络结构实现缩放不变的通用方法，并使用SGD和权重衰减进行训练。作者设计了一种名为SIBERT的缩放不变的BERT版本，其性能与使用Adam等自适应方法训练的BERT相媲美。

批量大小不变的 Adam

BriefGPT - AI 论文速递 ·

本研究提出了一种受限参数正则化（CPR）方法，通过对单个参数组的统计度量施加上限，避免了显式的标量系数。CPR能够根据不同参数组实现不同的正则化强度，且在运行时没有明显的开销。实验证明CPR在抑制grokking效果方面表现突出，并且始终与或超过传统权重衰减的性能表现一致。

参数正则化中的新视角：约束方法

BriefGPT - AI 论文速递 ·

本文研究了使用SGD训练任意宽度的两层神经网络，证明了第一层权重将收敛于真实模型的k维主子空间，使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标，其样本复杂度与d成线性关系。

SGD 在两层神经网络中寻找并调整特征，具有近乎最优的样本复杂度：以 XOR 问题为案例研究

BriefGPT - AI 论文速递 ·

本文介绍了PyTorch中的一些函数，包括计算模型参数数量和设置权重衰减的函数。同时定义了FocalLoss类，用于实现softmax和sigmoid的焦点损失，适用于多分类任务。

pytorch有用的脚本片段和函数的积累

李文举 ·