小红花·文摘

本文探讨了因子投资的定义与应用，分析了Fama-French三因子模型及其扩展，归纳出五个稳定的因子方向：价值、动量、质量、低波和规模，并提供了构造因子的Python代码示例。同时，讨论了A股市场的特殊性，如行业中性化的重要性和因子治理流程，提醒投资者关注因子在不同市场环境下的表现变化。

行业首发！线控制动量产上车，奇瑞星途 EX7 上市售价 19.99 万元起

爱范儿 ·

2025年动量计算公式是什么？

DEV Community ·

本研究解决了传统动量优化器在面对大幅度不对齐梯度时可能导致振荡的问题。提出的考虑扭矩的动量(TAM)方法通过引入基于新旧梯度之间角度的阻尼因子，稳定训练过程中的更新方向。实证结果表明，TAM在多种任务中（包括图像分类和大型语言模型微调）相较于传统动量优化器，能够更有效地应对分布变化并提升泛化性能。

考虑扭矩的动量

BriefGPT - AI 论文速递 ·

本文提出Grams优化算法，解决了传统深度学习算法中更新方向与幅度相互依赖的问题。Grams通过分离更新方向和动量，专注于自适应幅度缩放，展现出比Adam和Lion等优化器更快的收敛速度和更强的泛化能力，显示出在大规模机器学习中的高效优化潜力。

异步私有联邦学习中的动量近似

Apple Machine Learning Research ·

本文解决了大型神经网络训练中必须依赖高速互连共享梯度的问题，通过去耦动量更新，允许加速器之间的优化器状态有控制的发散，证明在训练过程中无需同步完整的优化器状态和模型参数。研究结果表明，DeMo方法在带宽有限和异构硬件条件下也能显著提高收敛速度，且在与AdamW进行对比时，DeMo训练的模型性能相当或更优，并消除了对高速互连的需求。

去耦动量优化

BriefGPT - AI 论文速递 ·

本研究针对联邦学习中的数据异构性问题，提出了一种新的动量初始化方法。通过提出反向动量联邦学习（RMFL），该方法对梯度施加指数衰减权重，创新性地改变了传统动量累积方式，显著提高了联邦学习的性能。实验表明，RMFL在不同异构水平的基准数据集上都展现出优越的效果。

重新思考异构数据下联邦学习中动量初始化的方法

BriefGPT - AI 论文速递 ·

本研究解决了动量系数选择不明确的问题，这限制了对动量在随机梯度方法中作用的理解。通过将动量法解释为梯度的时变滤波器，提出了一种频域分析框架，从而形成了动态调整滤波特性的启发式优化器FSGDM，显著提高了模型的泛化性能。

动量法的性能分析：频域视角

BriefGPT - AI 论文速递 ·

本研究解决了在大语言模型（LLMs）中提示优化效率和效能不足的问题。MAPO提出了一种新颖的方法，通过使用积极的自然语言“梯度”和基于动量的扩展，有效地改进提示，避免局部最小值和振荡。研究结果表明，MAPO比ProTeGi更快收敛，API调用更少，F1分数更高，展示了其作为自动化提示工程强大且可扩展的解决方案的潜力。

引入MAPO：动量辅助的梯度下降提示优化

BriefGPT - AI 论文速递 ·

本研究解决了稀疏专家混合模型（SMoE）在训练不稳定和对新分布适应性差的问题，导致模型在数据污染时缺乏鲁棒性。我们提出了一种新方法MomentumSMoE，理论和实验证明其比传统SMoE更稳定和鲁棒，适用于多种实际任务，如图像识别和语言建模。

Adam优化器结合动量和RMSProp方法，用于梯度下降。初始化时需提供参数生成器、学习率（默认0.01）、动量系数（默认0.9和0.999）、epsilon（默认1e-08）、权重衰减（默认0），以及AMSGrad等选项。不能同时启用foreach和fused，或differentiable和fused。使用step()更新参数，zero_grad()重置梯度。示例中，Adam优化器用于简单线性模型。

PyTorch中的Adam优化器

DEV Community ·

本文针对分布式学习中拜占庭鲁棒性和通信效率的关键挑战，提出了一种新颖的随机分布式学习方法。该方法不对批大小有要求，能够收敛到比现有方法更小的解邻域，同时通过利用Polyak动量来减轻偏置压缩器和随机梯度带来的噪声，展现出显著的实用价值和理论优势。

基于压缩动量过滤的拜占庭鲁棒与通信高效的分布式学ä¹

BriefGPT - AI 论文速递 ·

本文探讨了神经网络的学习动力学，分析了不同优化算法、超参数和网络结构对学习过程的影响。研究揭示了网络在训练中的稳定性和收敛性，并提出了缓解学习困难的策略，为机器学习与动力系统理论的交叉提供了新见解。

自适应动量优化下神经网络参数空间中数字波动的几何结构

BriefGPT - AI 论文速递 ·

本文提出了一种新型政策梯度算法，适用于状态值和策略函数逼近，解决高维“诅咒”问题，确保离线学习收敛。研究改进了多种Actor-Critic算法，强调样本复杂度和收敛速度，展示了在动态环境中的强化学习应用效果。

重球动量加速的演员-批评算法与函数逼近

BriefGPT - AI 论文速递 ·

本文提出了一种增强本地学习的方法AugLocal，通过选择部分网络层来增强协同作用，解决了本地学习与BP方法之间的精度差距，并减少了约40%的GPU内存使用。该方法在资源受限的平台上训练深度神经网络具有潜力。此外，提出的指数移动平均归一化（EMAN）技术提高了教师模型的泛化能力，适用于多种网络结构和数据集。