小红花·文摘 - 小红花技术领袖俱乐部

$Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一步Euler积分且把Jacobian直接换成单位矩阵$

Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一步Euler积分且把Jacobian直接换成单位矩阵

结构之法算法之道 ·

本文讨论了策略梯度方法在语言模型训练中的应用，重点介绍了REINFORCE算法。通过log-derivative技巧，策略梯度能够优化期望回报，而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响，并介绍了RLOO等现代改进方法，以降低方差并提高训练稳定性。

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

土法炼钢兴趣小组的博客 ·

关注视觉生成模型的读者都知道，FID一直是其关键的评价指标之一，它越小往往意味着生成效果越真实。那么一个自然的问题是：为什么不干脆直接以FID为损失函数来训练生成模型呢？难道是因为FID不可导？...

直接以FID为Loss：从梯度计算到流式训练

科学空间|Scientific Spaces ·

基于梯度的世界模型长时间规划

基于梯度的世界模型长时间规划

The Berkeley Artificial Intelligence Research Blog ·

文章讨论了优化器的选择与学习率的调整，指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam，学习率过小可能导致训练缓慢和局部极小值问题。此外，梯度消失与爆炸仍是深度学习中的挑战，需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06｜梯度下降与反向传播

土法炼钢兴趣小组的博客 ·

咖啡因梯度 — 演出

咖啡因梯度 — 演出

Lifelog — A Mythology-Driven Devlog ·

本文介绍了神经网络的结构，包括输入层、输出层和多个隐藏层，并使用激活函数（如ReLU）引入非线性。反向传播通过计算梯度和链式法则，将误差从输出层向后传播以学习参数。

CS231n 讲义 IV：神经网络与反向传播

Louis Aeilot's Blog ·

前面四篇文章中，我们探讨了SGD从有界域到无界域、从平均损失到终点损失的一系列收敛结论。或许有读者觉得，说来说去都还是SGD，这恐怕是“上古时代”的结果了吧？还真不是！像第四篇《让炼丹更科学一些...

让炼丹更科学一些（五）：基于梯度精调学习率

科学空间|Scientific Spaces ·

梯度下降：机器学习优化的引擎

梯度下降：机器学习优化的引擎

MachineLearningMastery.com ·

使用torch.compile和梯度累积加速模型训练

使用torch.compile和梯度累积加速模型训练

MachineLearningMastery.com ·

在内存受限环境中使用混合精度和梯度检查点训练模型

在内存受限环境中使用混合精度和梯度检查点训练模型

MachineLearningMastery.com ·

$FPO——流匹配策略梯度：避开复杂的对数似然计算，通过「最大化基于CFM损失计算优势加权比率」做策略优化，兼容PPO-CLIP$

FPO——流匹配策略梯度：避开复杂的对数似然计算，通过「最大化基于CFM损失计算优势加权比率」做策略优化，兼容PPO-CLIP

结构之法算法之道 ·

本文探讨了流形上的最速下降问题，提出了对偶梯度下降法。通过分析核范数梯度，作者将约束优化问题转化为最小化目标函数，从而计算流形上的优化方向。

流形上的最速下降：5. 对偶梯度下降

科学空间|Scientific Spaces ·

为语音识别启用差分隐私的联邦学习：基准测试、自适应优化器与梯度裁剪

为语音识别启用差分隐私的联邦学习：基准测试、自适应优化器与梯度裁剪

Apple Machine Learning Research ·

如何在随机森林和梯度提升之间做出选择

如何在随机森林和梯度提升之间做出选择

MachineLearningMastery.com ·

本文探讨了约束优化中“最速下降方向”与梯度的关系，强调不同范数对最速下降方向的影响。通过分析SGD在超球面上的应用，提出了“最小作用量原理”，并讨论了在约束条件下的参数更新优化方法。

流形上的最速下降：1. SGD + 超球面

科学空间|Scientific Spaces ·

本研究建立了一个框架，分析机器学习中多数与少数学习任务的偏差放大问题，揭示了标准训练方式对多数群体的偏向，导致少数特征被忽视。

当多数人统治时，少数人失利：梯度下降的偏差放大

BriefGPT - AI 论文速递 ·

本文提出情感梯度元认知递归自我改进（EG-MRSI）框架，以解决学习算法的安全性问题。通过引入可微分的内在奖励函数，EG-MRSI有效结合自我反思与情感动机，为安全的通用人工智能提供理论基础。

情感梯度元认知递归自我改进（第一部分）：理论基础和单代理架构

BriefGPT - AI 论文速递 ·

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值（CVaR）的方法，旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明，该方法在多个环境中显著提升了性能。

回报上限：样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

ICLR 2025 | 大模型是否能做到有效“遗忘”？从梯度视角重新审视LLM反学习方法

机器之心 ·