小红花·文摘

本研究提出了海姆达尔模型，旨在提升大语言模型在长链推理中的验证能力。通过纯强化学习，验证准确率从62.5%提升至94.5%，并在重复采样后达到97.5%。该模型在复杂数学问题上表现优异，并可通过悲观验证方法增强其解决能力。