研究团队提出了一种选择性熵正则化方法(SIREN),有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程,精准调控探索行为,显著提升了模型在数学推理等任务上的表现。
通过知识传递,量化和比较强化学习算法在探索和学习方面的努力。使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度。提供关于强化学习算法的探索行为的洞见,并比较不同算法的探索行为。
该研究探讨了人类探索行为与人工智能自主性和适应性的联系,并将认知心理学应用于机器学习。研究发现,人工智能代理可以通过内部状态和探索行为的因果关系来学习和自我发展,对人类认知研究和人工智能发展具有重要意义。
研究探讨了人工智能自主性和适应性与人类探索行为的关系,应用认知心理学范例于机器学习方法中。研究发现,人工智能代理可以通过内部状态与探索行为之间的因果关系来自我学习和发展。
本文提出了一种新的计算模型,通过内存网络的检索错误来估计惊喜的新颖性,并通过惊喜记忆(SM)增加基于惊喜的内在动机的能力。实验结果表明,SM在稀疏奖励环境中表现出高效的探索行为,并显著提升了最终性能。
完成下面两步后,将自动完成登录并继续当前操作。