大语言模型(LLM)通过元强化微调(MRT)优化推理能力,研究表明MRT在多个基准测试中优于传统的结果奖励强化学习(RL),在准确率和token效率上均有显著提升。MRT通过平衡探索与利用,优化LLM输出,推动解决更复杂的问题。
完成下面两步后,将自动完成登录并继续当前操作。