小红花·文摘

研究团队提出了一种选择性熵正则化方法（SIREN），有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程，精准调控探索行为，显著提升了模型在数学推理等任务上的表现。

量子位 ·

该研究探讨了人类探索行为与人工智能自主性和适应性的联系，并将认知心理学应用于机器学习。研究发现，人工智能代理可以通过内部状态和探索行为的因果关系来学习和自我发展，对人类认知研究和人工智能发展具有重要意义。

BriefGPT - AI 论文速递 ·

研究探讨了人工智能自主性和适应性与人类探索行为的关系，应用认知心理学范例于机器学习方法中。研究发现，人工智能代理可以通过内部状态与探索行为之间的因果关系来自我学习和发展。

BriefGPT - AI 论文速递 ·

本文提出了一种新的计算模型，通过内存网络的检索错误来估计惊喜的新颖性，并通过惊喜记忆（SM）增加基于惊喜的内在动机的能力。实验结果表明，SM在稀疏奖励环境中表现出高效的探索行为，并显著提升了最终性能。

BriefGPT - AI 论文速递 ·