机器之心 ·

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

研究表明，不同语言模型在自我改进能力上存在显著差异。Qwen-2.5-3B在强化学习中优于Llama-3.2-3B，因其具备关键的认知行为，如验证和回溯。通过引导Llama学习这些行为，模型性能显著提升，表明认知行为对有效利用计算资源至关重要。

🎯

❓

Qwen-2.5-3B在强化学习中表现优于Llama-3.2-3B，主要因为Qwen具备关键的认知行为，如验证和回溯。

四种关键认知行为是验证、回溯、子目标设定和逆向思考。

通过用包含验证和回溯等认知行为的人工合成推理轨迹对Llama进行引导，可以显著改善其性能。

初始推理行为如验证和回溯是有效利用计算资源的基础，缺乏这些能力即使有更多资源也无法提升表现。

Countdown游戏作为测试平台，强调了数学推理和问题解决能力的重要性，适合分析模型的认知行为。

研究者开发了一个框架，通过识别推理token中的模式来分析模型输出中的关键认知行为。

🏷️

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
Rivian’s revenue is up as R2 production kicks into gear
Rivian reported its first quarter earnings of 2026, providing us a closer loo...
Rivian downsizes its goals for its EV factory in Georgia
Rivian announced some changes today with regard to the factory its building i...
The logic of the racist Supreme Court isn’t adding up
Close watchers of the Supreme Court knew that the conservative supermajority ...