量子位 ·

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

Sanaka AI提出了一种新方法，使教师模型能够像人类教师一样进行启发式教学，训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率，并显著降低了训练成本。

🎯

关键要点

Sanaka AI提出了一种新方法，使教师模型能够进行启发式教学。
新方法训练出的7B小模型在推理能力上超越了671B的DeepSeek-R1。
教师模型通过逐步解释而非直接解决问题来提高教学效率。
传统方法依赖于昂贵的强化学习，效率低且过于依赖教师模型的能力。
新方法要求教师模型提供逐步的详细解释，帮助学生模型学习。
Sanaka AI的新方法解决了传统方法中的效率和教学能力问题。
7B的RLT小模型在训练32B学生模型时表现优异，且计算量远低于传统方法。
新方法与传统RL方法结合使用，能进一步提高性能。
使用RLT训练32B学生模型的时间显著减少，仅需一天，而传统方法需数月。
RLT提供的解释更清晰，避免了误导性内容，帮助学生更好地理解。

❓

延伸问答

Sanaka AI的新方法如何提高教师模型的教学效率？

新方法要求教师模型提供逐步的详细解释，而不是直接解决问题，从而提高了教学效率。

7B小模型在推理能力上如何超越DeepSeek-R1？

通过Sanaka AI的新方法训练的7B小模型在推理能力上超越了671B的DeepSeek-R1，表现更为有效。

传统强化学习方法的局限性是什么？

传统方法依赖昂贵的强化学习，效率低且过于依赖教师模型的能力，导致训练过程缓慢。

RLT模型在训练学生模型时的优势是什么？

RLT模型能够在较少的计算量下训练出更强的学生模型，且训练时间显著减少。

使用RLT训练32B学生模型的时间与传统方法相比如何？

使用RLT训练32B学生模型仅需一天，而传统方法需数月。

RLT模型提供的解释与DeepSeek-R1的输出有何不同？

RLT提供的解释更清晰，避免了误导性内容，并增加了逻辑步骤，帮助学生更好理解。

🏷️

继续阅读

在Databricks上通过提示缓存加速开源模型的LLM推理
在旧金山举行的全球最大数据、应用和人工智能活动中，研究人员探讨了提示缓存技术在大型语言模型（LLM）推理中的应用。提示缓存可以消除重复请求的冗余，提高模型...
全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
李飞飞再出手，空间智能的ImageNet来了
李飞飞团队发布了ESI-Bench，这是一个用于评测具身空间智能的新基准。该基准要求AI主动探索以获取信息，研究显示当前AI在空间智能方面，尤其是主动探索...
谷歌的新型全能AI模型令人惊叹
谷歌的新AI模型Omni可以将照片、视频和文本转化为其他形式，已在视频生成平台Flow中推出。Omni在生成视频时表现出色，但仍存在不一致和奇怪的结果，用...
DeepSeek V4价格打骨折，宁王京东网易抢着入场，梁文锋：目标是AGI
DeepSeek宣布V4-Pro API永久降价，并正在进行700亿元融资，估值达450亿美元。宁德时代计划投资DeepSeek，以扩展其在数据中心的布局...
深度求索宣布将DeepSeek V4 Pro永久降价到原价的1/4 也就是优惠价变正价
深度求索宣布将DeepSeek V4 Pro模型价格永久降至原价的1/4，百万输入命中缓存仅需0.025元，未命中缓存3元，百万输出6元。此举旨在提升开发...