小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了RL$^V$，有效解决了强化学习中价值函数利用不足的问题。通过同时训练大语言模型作为推理器和生成验证器，显著提升了MATH任务的准确率和计算效率。

Reintroducing Value in Reinforcement Learning: Achieving Better Test Time Scaling through Unified Large Language Model Inference and Validation

BriefGPT - AI 论文速递 ·