机器之心 ·

推动大模型自我进化，北理工推出「流星雨计划」

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

北京理工大学的流星雨研究计划旨在探讨大模型自我进化的理论与方法。该计划采用SRA-MCTS方法，通过模型自我推理生成高质量代码，以提高复杂任务的成功率。研究发现，小模型在自我合成数据训练中表现优于大模型，未来将进一步探索更广泛的自我进化框架。

🎯

关键要点

北京理工大学的流星雨研究计划旨在探讨大模型自我进化的理论与方法。
该计划采用SRA-MCTS方法，通过模型自我推理生成高质量代码，以提高复杂任务的成功率。
研究发现，小模型在自我合成数据训练中表现优于大模型。
SRA-MCTS方法无需外部监督，完全依赖模型自身的推理能力进行数据生成和训练。
通过反复生成推理路径并进行自我训练，模型形成了一个正向反馈循环，实现了性能的持续提升。
流星雨计划提出了一个由弱到强的进化框架，包含导师监督学习、自我评估能力习得和自我提升训练三个阶段。
在导师监督学习阶段，采用weak-to-strong的领域数据蒸馏方法。
自我评估能力习得阶段通过更强模型的反馈来纠正模型内部的错误知识。
自我提升训练阶段希望模型能够实现完全的领域能力自我进化。
未来将探索更广泛的自我进化框架，推广流星雨计划。

❓

延伸问答

流星雨计划的主要目标是什么？

流星雨计划旨在探讨大模型自我进化的理论与方法，推动大模型的发展。

SRA-MCTS方法的核心特点是什么？

SRA-MCTS方法无需外部监督，完全依赖模型自身的推理能力进行数据生成和训练。

小模型在自我合成数据训练中的表现如何？

研究发现，小模型在自我合成数据训练中表现优于大模型。

流星雨计划的自我进化框架包含哪些阶段？

该框架包含导师监督学习、自我评估能力习得和自我提升训练三个阶段。

如何实现模型的自我提升训练？

自我提升训练通过让模型进行自我批判，摆脱对强模型的依赖，实现完全的领域能力自我进化。

未来流星雨计划的研究方向是什么？

未来将探索更广泛的自我进化框架，推广流星雨计划，并创新更适用的模型自我进化方法。

🏷️

标签

SRA-MCTS 大模型小模型数据训练自我进化

➡️

继续阅读

Token IO 架构的设计游戏：大模型产品形态四年演进的本质 - 张善友
文章探讨了大模型产品的演进，强调了token流动方式的重新设计对用户体验的影响。过去四年，产品突破主要依赖于优化token使用和上下文管理，而非仅增加模型...
连融 4 轮，投资方群星闪耀，自变量估值突破 200 亿
自变量机器人成立两年半，已完成多轮融资，估值超200亿元，成为粤港澳大湾区唯一的具身智能公司。投资方包括小米、阿里巴巴等互联网巨头，显示出对其技术的高度认...
梁文锋署名的DSpark，看懂这10个点就够了！
DeepSeek的新论文DSpark提出了一种通过系统工程和模型协同设计来提升大模型推理速度的方法。该方法利用GPU的特性进行连续批处理，结合小模型的快速...
DeepSeeK 突然发布 DSpark，让 AI 的回答不再「挤牙膏」
DeepSeek与北京大学联合发布了论文《DSpark》，提出了一种新的推理加速框架。DSpark通过半自回归架构和基于置信度的验证，显著提高了生成速度，...
YC 揭秘 AI 原生组织：打造一家在睡梦中自我进化的公司
文章探讨了传统层级制组织的崩溃，提出了“AI 原生公司”概念，强调公司应通过自我进化的 AI 闭环运作。AI 能实时处理信息，消除中层管理，提升效率。人类...
Suno推出Spark孵化器计划，以支持独立艺术家并将其纳入AI生态系统
Suno推出了Spark孵化器计划，旨在支持独立艺术家，提供资助、指导和市场推广。参与者需同意一些有争议的条款，包括将作品授权给Suno进行改编，并承诺不...