小红花·文摘

研究团队提出了一种选择性熵正则化方法（SIREN），有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程，精准调控探索行为，显著提升了模型在数学推理等任务上的表现。

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

量子位 ·

本研究提出了一种新方法，通过熵正则化自动发现强化学习中的采样分布，解决了手动指定环境分布的问题，展现出更好的灵活性和鲁棒性。

基于流的领域随机化用于学习和排序机器人技能

BriefGPT - AI 论文速递 ·

本文提出了Entropy-SGD优化算法，通过局部几何改善深度神经网络的训练，展现出比SGD更平滑的能量景观和更好的泛化性能。同时，研究探讨了熵正则化在马尔可夫决策过程中的应用，证明了其在优化速度和收敛性方面的优势。

基于Csiszár类型Tsallis熵的神经网络优化线性化势函数设计

BriefGPT - AI 论文速递 ·

该研究比较了强化学习中的优化标准，提出了一种新方法以最小化Bellman残差，实验表明直接最大化平均值效果更佳。同时，研究探讨了探索与利用的平衡，提出了不确定性Bellman方程和熵正则化奖励函数，以提高强化学习的效率和策略优化。

通过静态贝尔曼误差最大化实现确定性探索

BriefGPT - AI 论文速递 ·

渐进熵最优传输求解器

Apple Machine Learning Research ·

本文探讨了通过熵正则化和最优输运理论提高Wasserstein距离计算效率的方法，提出了多种算法，包括基于二阶Wasserstein距离的优化方法、适应性结构的拟合值迭代方法，以及新的EOT求解器ProgOT。这些方法在解决最优传输问题和确保统计一致性方面表现出色，尤其在图像传输和概率测度嵌入领域。

正交耦合动力学下的最优运输

BriefGPT - AI 论文速递 ·

本文研究了基于KL散度的近似策略迭代算法，探讨了熵正则化对策略改进的影响。提出了多种策略梯度方法，并通过实验验证了其在离线强化学习中优化策略的有效性，特别是在处理人类反馈和多任务决策时的表现。

正向KL正则化偏好优化以对齐扩散政策

BriefGPT - AI 论文速递 ·

生成流网络（GFlowNets）是一种通过操作离散对象的组合采样方法，与强化学习相结合。研究者将学习生成流网络的任务重新定义为熵正则化强化学习问题，并展示了其在概率建模任务上的实际效率。熵正则化强化学习方法可以与已建立的GFlowNet训练方法竞争，为整合强化学习原理到生成流网络领域开辟了道路。

基于生成流网络的多智能体连续控制

BriefGPT - AI 论文速递 ·

本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明，当目标测度具有紧支集或强对数凹性时，期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况，期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解。实验结果显示了对方差项控制的松弛性，并提出了几个开放性问题。

ENOT: 快速准确的神经最优输运训练的 Expectile 正则化

BriefGPT - AI 论文速递 ·

本文介绍了一种新的Q-learning类型算法，通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本，并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递 ·

本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明，当目标测度具有紧支集或强对数凹性时，期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况，期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解和T1-传输不等式。实验结果显示了对方差项控制的松弛性，并提出了几个开放性问题。

非紧支持测度之间的熵正则最优输运映射估计

BriefGPT - AI 论文速递 ·

本文提出了一种新的策略梯度算法，使用非统计方法提供了非渐进收敛保证，并专注于受softmax参数化限制的比例调节，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化MDP的最优价值函数时，收敛速度为线性或二次，并适应广泛的学习速率，熵正则化在实现快速收敛方面发挥了作用。

加速策略梯度法：关于强化学习中的 Nesterov 动量

BriefGPT - AI 论文速递 ·

该文介绍了一种新的Q-learning算法，通过使用经过熵正则化的软策略来近似Q函数更新期间的纳什策略，从而减少学习零和随机博弈的计算成本。该算法能够快速适应新环境，并提供了动态超参数调度方案来加快收敛速度。实证结果验证了该算法收敛于纳什平衡，并且比现有算法具有更快的加速效果。

改进样本复杂度的学习零和线性二次博弈

BriefGPT - AI 论文速递 ·