量子位 ·

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

研究团队提出了一种选择性熵正则化方法（SIREN），有效解决了大语言模型在RLVR训练中的“熵困境”。该方法通过限制探索范围、聚焦关键决策和稳定训练过程，精准调控探索行为，显著提升了模型在数学推理等任务上的表现。

🎯

🔎

在大语言模型的训练中，探索机制的失衡是一个关键问题，可能导致熵崩塌或熵爆炸。选择性熵正则化方法（SIREN）通过划定探索范围和聚焦关键决策，有效解决了这一困境。理解这一机制的运作，有助于更好地把握模型训练的稳定性与效率。

SIREN的三个核心机制分别是Top-p掩码、峰值熵掩码和自锚定正则化。这些机制通过限制探索范围和集中激励于关键决策点，确保模型在训练过程中保持高效的探索能力。掌握这些机制的细节，可以为后续的模型优化提供重要参考。

实验表明，SIREN在多个模型和数据集上均取得显著性能提升，尤其是在数学推理任务中。这一结果不仅验证了SIREN的有效性，也为未来大模型的训练提供了新的思路，强调了有效探索在提升模型能力中的重要性。

❓

SIREN是一种通过划定探索范围、聚焦关键决策和稳定训练过程来精准调控大语言模型探索行为的方法。

SIREN通过限制探索范围和聚焦关键决策，避免了熵崩塌和熵爆炸的问题，从而实现了更有效的探索。

SIREN的核心机制包括Top-p掩码、峰值熵掩码和自锚定正则化。

实验结果显示，SIREN在多个数学推理基准上显著提升了模型性能，尤其在Qwen2.5-Math-7B上超越了最强基线4.8%。

传统熵正则化方法未能有效引导探索，容易导致训练不稳定，甚至引发熵崩塌或熵爆炸。

研究团队期待SIREN为下一代推理模型的训练提供启发，推动大模型在复杂任务中的应用。

🏷️