研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。
本研究提出了一种新方法,通过熵正则化自动发现强化学习中的采样分布,解决了手动指定环境分布的问题,展现出更好的灵活性和鲁棒性。
本文提出了Entropy-SGD优化算法,通过局部几何改善深度神经网络的训练,展现出比SGD更平滑的能量景观和更好的泛化性能。同时,研究探讨了熵正则化在马尔可夫决策过程中的应用,证明了其在优化速度和收敛性方面的优势。
该研究比较了强化学习中的优化标准,提出了一种新方法以最小化Bellman残差,实验表明直接最大化平均值效果更佳。同时,研究探讨了探索与利用的平衡,提出了不确定性Bellman方程和熵正则化奖励函数,以提高强化学习的效率和策略优化。
最优传输(OT)在机器学习中用于重新对齐数据集。熵最优传输(EOT)求解器解决Kantorovich和Monge问题,但调节熵正则化强度ε较难。本文提出了一种新型EOT求解器ProgOT,通过时间离散化优化计算。实验显示,ProgOT在大规模计算中比传统EOT更快、更稳健,优于一些神经网络方法,并具统计一致性。
本文探讨了通过熵正则化和最优输运理论提高Wasserstein距离计算效率的方法,提出了多种算法,包括基于二阶Wasserstein距离的优化方法、适应性结构的拟合值迭代方法,以及新的EOT求解器ProgOT。这些方法在解决最优传输问题和确保统计一致性方面表现出色,尤其在图像传输和概率测度嵌入领域。
本文研究了基于KL散度的近似策略迭代算法,探讨了熵正则化对策略改进的影响。提出了多种策略梯度方法,并通过实验验证了其在离线强化学习中优化策略的有效性,特别是在处理人类反馈和多任务决策时的表现。
生成流网络(GFlowNets)是一种通过操作离散对象的组合采样方法,与强化学习相结合。研究者将学习生成流网络的任务重新定义为熵正则化强化学习问题,并展示了其在概率建模任务上的实际效率。熵正则化强化学习方法可以与已建立的GFlowNet训练方法竞争,为整合强化学习原理到生成流网络领域开辟了道路。
本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明,当目标测度具有紧支集或强对数凹性时,期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况,期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解。实验结果显示了对方差项控制的松弛性,并提出了几个开放性问题。
本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。
本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明,当目标测度具有紧支集或强对数凹性时,期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况,期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解和T1-传输不等式。实验结果显示了对方差项控制的松弛性,并提出了几个开放性问题。
本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。
该文介绍了一种新的Q-learning算法,通过使用经过熵正则化的软策略来近似Q函数更新期间的纳什策略,从而减少学习零和随机博弈的计算成本。该算法能够快速适应新环境,并提供了动态超参数调度方案来加快收敛速度。实证结果验证了该算法收敛于纳什平衡,并且比现有算法具有更快的加速效果。
完成下面两步后,将自动完成登录并继续当前操作。