小红花·文摘

本研究提出了GVM-RAFT动态样本分配策略，以解决大语言模型中链式思维推理训练的梯度估计效率低下问题。该方法在数学推理实验中实现了2-4倍的速度提升和显著的准确性改进，展示了在强化学习中的应用潜力。

Optimizing Chain-of-Thought Reasoners in Rejection Sampling and Reinforcement Learning via Gradient Variance Minimization

BriefGPT - AI 论文速递 ·

本研究提出了一种基于有限时域梯度估计的安全强化学习方法（CGPO），有效解决了现有方法在有限时域非折扣约束估计中的问题。研究表明，该方法能够有效估计约束变化，确保安全策略更新的效率和可行性。

Safe Reinforcement Learning using Finite-Horizon Gradient Estimation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的生成对抗网络（GAN）训练框架，旨在解决模式崩溃带来的不稳定性问题，提升训练效率并降低梯度估计方差，为生成公平的合成数据提供新思路。

Parallel Temperature Generative Adversarial Network

BriefGPT - AI 论文速递 ·

本研究探讨算法决策导致的数据分布变化，并提出新视角进行建模。通过理解转变算子，开发了高效的梯度估计方法，提升了学习策略的效率和可扩展性。研究表明，准确模型部署时分类难度增加，并与对抗性强健分类相关。

在表演性分布转变下的最优分类

BriefGPT - AI 论文速递 ·

本研究提出了一种随机平滑理论，用于在不可微函数中进行梯度估计。该方法无需可微密度或完整支持，提供了通用框架，有效减少梯度估计的方差。

推广随机平滑技术用于微分和梯度估计

BriefGPT - AI 论文速递 ·

我们提出了一种新的分析方法，平滑学习目标，消除局部最优解，保留全局最优解。通过修改梯度估计和增加随机参数更新，提高最优策略的概率。实证研究突出了熵奖励的局限性，并为未来研究提供指导。

再探探索-利用困境：基于熵的视角

BriefGPT - AI 论文速递 ·

本文介绍了一种名为$(ext {FG})^2 ext {U}$的新方法，用于解决大规模双层优化问题。该方法通过无偏随机近似元梯度提供更准确的梯度估计，并支持并行计算以提高效率。$(ext {FG})^2 ext {U}$易于在流行的深度学习框架中实现，并适应更具挑战性的零阶双层优化场景。经过理论分析和实证评价，展示了其在多样的大规模双层优化任务中的卓越性能。

大规模双层优化的内存高效梯度展开

BriefGPT - AI 论文速递 ·

我们提出了一种新的分析方法，平滑学习目标并消除局部最优解，保留全局最优解。通过修改梯度估计和增加随机参数更新，提高最优策略的概率。实证研究讨论了熵奖励的局限性，并为未来研究提供指导。

极值寻求动作选择以加速策略优化

BriefGPT - AI 论文速递 ·

本文介绍了一种改进的基于 policy gradient 的强化学习算法，通过探索参数空间、重用过去的数据和确定性行为策略等技术，提高了数据效率，降低了梯度估计的方差并避免了局部最优解。实验表明，该算法相较于标准的 policy gradient 方法，能够使用更少的系统交互来学习解决方案。

连续控制中的政策优化问题：噪声邻域下的回报景观

BriefGPT - AI 论文速递 ·