研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。
本研究提出了一种新方法,通过熵正则化自动发现强化学习中的采样分布,解决了手动指定环境分布的问题,展现出更好的灵活性和鲁棒性。
本文提出了Entropy-SGD优化算法,通过局部几何改善深度神经网络的训练,展现出比SGD更平滑的能量景观和更好的泛化性能。同时,研究探讨了熵正则化在马尔可夫决策过程中的应用,证明了其在优化速度和收敛性方面的优势。
该研究比较了强化学习中的优化标准,提出了一种新方法以最小化Bellman残差,实验表明直接最大化平均值效果更佳。同时,研究探讨了探索与利用的平衡,提出了不确定性Bellman方程和熵正则化奖励函数,以提高强化学习的效率和策略优化。
最优传输(OT)在机器学习中用于重新对齐数据集。熵最优传输(EOT)求解器解决Kantorovich和Monge问题,但调节熵正则化强度ε较难。本文提出了一种新型EOT求解器ProgOT,通过时间离散化优化计算。实验显示,ProgOT在大规模计算中比传统EOT更快、更稳健,优于一些神经网络方法,并具统计一致性。
本文探讨了通过熵正则化和最优输运理论提高Wasserstein距离计算效率的方法,提出了多种算法,包括基于二阶Wasserstein距离的优化方法、适应性结构的拟合值迭代方法,以及新的EOT求解器ProgOT。这些方法在解决最优传输问题和确保统计一致性方面表现出色,尤其在图像传输和概率测度嵌入领域。
本文研究了基于KL散度的近似策略迭代算法,探讨了熵正则化对策略改进的影响。提出了多种策略梯度方法,并通过实验验证了其在离线强化学习中优化策略的有效性,特别是在处理人类反馈和多任务决策时的表现。
本文探讨了策略优化算法在马尔可夫决策过程中的收敛性,提出了新的非渐进收敛保证方法。研究表明,算法在逼近最优价值函数时可实现线性或二次收敛,熵正则化有助于加速收敛。此外,开发了基于原始-对偶的算法,以解决约束问题,提高样本复杂度的效率。
本文探讨了多种强化学习探索方法,包括基于密度模型的虚拟计数算法、差异性驱动的探索策略和熵正则化奖励函数。这些方法在Atari 2600等游戏中显著提高了学习效果,解决了探索与利用的平衡问题,并为未来研究提供了新思路。
本文研究了熵正则化下的最优输运问题,提出了一种基于Sinkhorn算法的解法,并证明了其收敛性和复杂度优势。通过动态正则化和二阶加速技术,改进了算法的收敛速度,适用于复杂场景中的输运计划。
本文探讨了利用多边际最优传输(MOT)简化对抗性风险问题的方法,提出通过线性规划和熵正则化提高深度学习模型的鲁棒性,并分析了机器学习分类器在对抗样本下的表现,应用最优传输理论优化神经网络的分类性能。
研究探讨了标签平滑在深度神经网络中的局限性,并提出熵正则化技术以提升模型性能和稀疏性。通过新型损失函数和优化算法,研究表明该技术在图像识别和语言建模等任务中有效防止过拟合,增强模型的收敛速度和性能。
本文介绍了一种名为DSPG的最大熵深度强化学习算法,该算法结合了基于熵正则化的期望回报目标和软Bellman方程,采用双重采样方法以提高学习的稳定性,解决了大规模离线数据训练和高维动作状态的问题。DSPG在多个强化学习任务中表现优异,展示了熵正则化技术对学习性能的积极影响。
该研究提出了一种新算法,通过熵正则化和高斯核矩阵低秩逼近,计算点云间的二次输运度量(2-Wasserstein 距离),其复杂度为 O(n)。研究表明,Wasserstein 距离在逆问题中具有平滑效应,并在有限维度中优化性能优于传统距离。此外,还探讨了收敛速度、优化问题及深度模型的鲁棒性提升。
本文研究了无限时段熵正则化马尔可夫决策过程中的Fisher-Rao策略梯度流的全球收敛性,证明其能够指数级收敛到最优策略,并探讨了自然策略梯度算法的改进及其收敛速度。研究表明,采用适应性步长的策略梯度方法在强化学习中表现出良好的性能和稳定性。
本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。
本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明,当目标测度具有紧支集或强对数凹性时,期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况,期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解和T1-传输不等式。实验结果显示了对方差项控制的松弛性,并提出了几个开放性问题。
本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。
该文介绍了一种新的Q-learning算法,通过使用经过熵正则化的软策略来近似Q函数更新期间的纳什策略,从而减少学习零和随机博弈的计算成本。该算法能够快速适应新环境,并提供了动态超参数调度方案来加快收敛速度。实证结果验证了该算法收敛于纳什平衡,并且比现有算法具有更快的加速效果。
完成下面两步后,将自动完成登录并继续当前操作。