小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升

量子位
量子位 · 2025-10-13T09:12:43Z

本研究提出了一种新方法,通过熵正则化自动发现强化学习中的采样分布,解决了手动指定环境分布的问题,展现出更好的灵活性和鲁棒性。

基于流的领域随机化用于学习和排序机器人技能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文提出了Entropy-SGD优化算法,通过局部几何改善深度神经网络的训练,展现出比SGD更平滑的能量景观和更好的泛化性能。同时,研究探讨了熵正则化在马尔可夫决策过程中的应用,证明了其在优化速度和收敛性方面的优势。

基于Csiszár类型Tsallis熵的神经网络优化线性化势函数设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

该研究比较了强化学习中的优化标准,提出了一种新方法以最小化Bellman残差,实验表明直接最大化平均值效果更佳。同时,研究探讨了探索与利用的平衡,提出了不确定性Bellman方程和熵正则化奖励函数,以提高强化学习的效率和策略优化。

通过静态贝尔曼误差最大化实现确定性探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z
渐进熵最优传输求解器

最优传输(OT)在机器学习中用于重新对齐数据集。熵最优传输(EOT)求解器解决Kantorovich和Monge问题,但调节熵正则化强度ε较难。本文提出了一种新型EOT求解器ProgOT,通过时间离散化优化计算。实验显示,ProgOT在大规模计算中比传统EOT更快、更稳健,优于一些神经网络方法,并具统计一致性。

渐进熵最优传输求解器

Apple Machine Learning Research
Apple Machine Learning Research · 2024-10-14T00:00:00Z

本文探讨了通过熵正则化和最优输运理论提高Wasserstein距离计算效率的方法,提出了多种算法,包括基于二阶Wasserstein距离的优化方法、适应性结构的拟合值迭代方法,以及新的EOT求解器ProgOT。这些方法在解决最优传输问题和确保统计一致性方面表现出色,尤其在图像传输和概率测度嵌入领域。

正交耦合动力学下的最优运输

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文研究了基于KL散度的近似策略迭代算法,探讨了熵正则化对策略改进的影响。提出了多种策略梯度方法,并通过实验验证了其在离线强化学习中优化策略的有效性,特别是在处理人类反馈和多任务决策时的表现。

正向KL正则化偏好优化以对齐扩散政策

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文探讨了策略优化算法在马尔可夫决策过程中的收敛性,提出了新的非渐进收敛保证方法。研究表明,算法在逼近最优价值函数时可实现线性或二次收敛,熵正则化有助于加速收敛。此外,开发了基于原始-对偶的算法,以解决约束问题,提高样本复杂度的效率。

受限马尔可夫决策过程中的一般参数化策略的最后迭代收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文探讨了多种强化学习探索方法,包括基于密度模型的虚拟计数算法、差异性驱动的探索策略和熵正则化奖励函数。这些方法在Atari 2600等游戏中显著提高了学习效果,解决了探索与利用的平衡问题,并为未来研究提供了新思路。

再探探索-利用困境:基于熵的视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本文研究了熵正则化下的最优输运问题,提出了一种基于Sinkhorn算法的解法,并证明了其收敛性和复杂度优势。通过动态正则化和二阶加速技术,改进了算法的收敛速度,适用于复杂场景中的输运计划。

Sinkhorn 算法和线性规划求解器在最优部分运输问题中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本文探讨了利用多边际最优传输(MOT)简化对抗性风险问题的方法,提出通过线性规划和熵正则化提高深度学习模型的鲁棒性,并分析了机器学习分类器在对抗样本下的表现,应用最优传输理论优化神经网络的分类性能。

遗传列生成算法计算对抗分类的下界

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

研究探讨了标签平滑在深度神经网络中的局限性,并提出熵正则化技术以提升模型性能和稀疏性。通过新型损失函数和优化算法,研究表明该技术在图像识别和语言建模等任务中有效防止过拟合,增强模型的收敛速度和性能。

用平滑 l0 正则化的熵误差函数的 SGD 方法用于神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文介绍了一种名为DSPG的最大熵深度强化学习算法,该算法结合了基于熵正则化的期望回报目标和软Bellman方程,采用双重采样方法以提高学习的稳定性,解决了大规模离线数据训练和高维动作状态的问题。DSPG在多个强化学习任务中表现优异,展示了熵正则化技术对学习性能的积极影响。

最大熵奖罚强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

该研究提出了一种新算法,通过熵正则化和高斯核矩阵低秩逼近,计算点云间的二次输运度量(2-Wasserstein 距离),其复杂度为 O(n)。研究表明,Wasserstein 距离在逆问题中具有平滑效应,并在有限维度中优化性能优于传统距离。此外,还探讨了收敛速度、优化问题及深度模型的鲁棒性提升。

一种新的鲁棒部分 $p$-Wasserstein 比较分布度量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文研究了无限时段熵正则化马尔可夫决策过程中的Fisher-Rao策略梯度流的全球收敛性,证明其能够指数级收敛到最优策略,并探讨了自然策略梯度算法的改进及其收敛速度。研究表明,采用适应性步长的策略梯度方法在强化学习中表现出良好的性能和稳定性。

线性规划的费舍尔 - 饶梯度流和状态 - 动作自然策略梯度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

本文研究了次高斯测度下熵正则化最优传输映射的问题。结果表明,当目标测度具有紧支集或强对数凹性时,期望均方误差以至少O(n^(-1/3))的速率衰减。对于一般次高斯情况,期望L1误差以至少O(n^(-1/6))的速率衰减。这些结果对正则化参数具有多项式依赖性。证明技巧利用了偏差-方差分解和T1-传输不等式。实验结果显示了对方差项控制的松弛性,并提出了几个开放性问题。

非紧支持测度之间的熵正则最优输运映射估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z

本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。

加速策略梯度法:关于强化学习中的 Nesterov 动量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该文介绍了一种新的Q-learning算法,通过使用经过熵正则化的软策略来近似Q函数更新期间的纳什策略,从而减少学习零和随机博弈的计算成本。该算法能够快速适应新环境,并提供了动态超参数调度方案来加快收敛速度。实证结果验证了该算法收敛于纳什平衡,并且比现有算法具有更快的加速效果。

改进样本复杂度的学习零和线性二次博弈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码