小红花·文摘

清华团队提出新型强化学习方法PRIME，仅用1万元和8张A100显卡，训练出超越GPT-4o的7B模型Eurus-2-7B-PRIME。该方法通过隐式过程奖励解决了奖励稀疏问题，显著提升模型推理能力，未来有望推动更强模型的训练。

量子位 ·

DeepSynth是一种深度强化学习训练方法，能够在奖励稀疏和非Markovian环境中实现复杂目标序列。它通过合成自动机自动识别序列结构，从而显著提升策略合成的效率和可扩展性。

BriefGPT - AI 论文速递 ·