机器之心 ·

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

大语言模型（LLM）通过元强化微调（MRT）优化推理能力，研究表明MRT在多个基准测试中优于传统的结果奖励强化学习（RL），在准确率和token效率上均有显著提升。MRT通过平衡探索与利用，优化LLM输出，推动解决更复杂的问题。

🎯

关键要点

大语言模型（LLM）通过元强化微调（MRT）优化推理能力。
MRT在多个基准测试中优于传统的结果奖励强化学习（RL），在准确率和token效率上均有显著提升。
MRT通过平衡探索与利用，优化LLM输出，推动解决更复杂的问题。
研究者提出从元强化学习的视角来形式化优化测试时计算的挑战。
MRT的目标是学习一种与预算无关的LLM，使其能够稳步取得进展。
实验结果显示，MRT在多个基准测试中取得了SOTA结果，相较于基础模型的准确率提升是标准结果奖励RL的约2-3倍。
MRT在token效率上比结果奖励RL提高了1.2-1.6倍。
在回溯搜索设置中，MRT实现了最高的测试效率，并在线性化评估模式下将效率提高了30%以上。

❓

延伸问答

什么是元强化微调（MRT）？

元强化微调（MRT）是一种优化大语言模型（LLM）推理能力的方法，通过平衡探索与利用来提高模型的输出效率。

MRT与传统的结果奖励强化学习（RL）相比有什么优势？

MRT在多个基准测试中表现优于传统结果奖励RL，准确率提升约2-3倍，token效率提高1.2-1.6倍。

MRT是如何优化测试时计算的？

MRT通过最小化累积悔值来优化测试时计算，使得模型在每个测试问题上实现更高的效率和准确性。

MRT在实验中取得了什么样的结果？

实验结果显示，MRT在多个基准测试中取得了SOTA结果，准确率和token效率均显著高于基础模型和传统RL。

MRT如何处理token效率问题？

MRT在保持或提升准确率的同时，显著提高了token效率，减少了所需token数量。

MRT的目标是什么？

MRT的目标是学习一种与预算无关的LLM，使其能够在推理过程中稳步取得进展。

🏷️

继续阅读

一分钟读论文：《LLM 智能体在社交困境中的合作机制》
德国康斯坦茨大学与以色列魏茨曼科学研究所的研究首次评估了不同合作机制对大型语言模型（LLM）智能体在社交困境中的影响。研究发现，推理能力强的LLM反而更少...
把 DeepSeek、Kimi、智谱和 MiniMax 拉进群聊
Kimi推出了K2.6开源模型，提升了代码能力和指令遵循。新功能Kimi Claw支持多AI协作，允许不同模型在同一对话中共享信息，提升工作效率。用户可创...
梁文锋不在乎赢，DeepSeek不能输
上周末，外媒The Information爆出消息：DeepSeek正在寻求至少3亿美元（约20亿人民币）的首轮外部融资，估值至少100亿美元。DeepS...
Framework公司宣布推出Laptop 13 Pro，称其为‘Linux用户的MacBook Pro’
Framework公司推出了全新的Laptop 13 Pro，专为Linux用户设计，采用6000系列铝材，配备触控板和高分辨率显示屏，电池续航提升22%...
Framework首款外接显卡将其笔记本电脑转变为桌面电脑
Framework推出OCuLink开发套件，使Laptop 16能够连接外部显卡，提升性能。该产品面向高级用户，需在关机状态下连接，用户需自备电源和可能...
Framework正在开发一种更好的沙发键盘，因为大家都不喜欢Logitech的那款
Framework公司正在开发一种新型沙发键盘，以取代不受欢迎的Logitech K400。CEO Nirav Patel表示，现有沙发键盘不理想，因此决...