推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考
💡
原文中文,约1700字,阅读约需4分钟。
📝
内容提要
新开源推理模型Huginn采用与DeepSeek不同的架构,直接在高维潜空间中推理,抛弃长思维链。该模型自适应计算时间,能够捕捉难以用语言表达的推理类型,且无需专门训练数据和小上下文窗口。研究团队在超算上使用800B tokens数据进行预训练,表现出与传统大模型相当的能力。
🎯
关键要点
- 新开源推理模型Huginn采用与DeepSeek不同的架构,直接在高维潜空间中推理,抛弃长思维链。
- Huginn模型自适应计算时间,能够捕捉难以用语言表达的推理类型,且无需专门训练数据和小上下文窗口。
- 研究团队在超算上使用800B tokens数据进行预训练,表现出与传统大模型相当的能力。
- 新架构围绕Decoder-only的Transformer block构建,分为Prelude、Recurrent Block和Coda三个部分。
- 模型在潜在空间中的推理轨迹可视化显示,关键token的隐状态会形成复杂的轨道。
- Huginn模型的计算量相当于传统的32B模型,且没有post/mid-training过程。
- OpenAI研究员已注意到Huginn的工作,并有人准备尝试结合DeepSeek-R1的方法。
❓
延伸问答
Huginn模型与DeepSeek有什么主要区别?
Huginn模型直接在高维潜空间中推理,抛弃了长思维链和人类语言,而DeepSeek则采用不同的推理架构。
Huginn模型的训练数据量是多少?
Huginn模型在800B tokens的数据上进行了预训练。
Huginn模型的计算量与传统模型相比如何?
Huginn模型的计算量相当于传统的32B模型,但其参数仅为3.5B。
Huginn模型的推理轨迹有什么特点?
Huginn模型的推理轨迹可视化显示,关键token的隐状态形成复杂的轨道,表明模型在潜空间中独立学习推理。
Huginn模型是否需要专门的训练数据?
Huginn模型不需要任何专门的训练数据,可以在很小的上下文窗口下工作。
Huginn模型的架构是如何构建的?
Huginn模型围绕Decoder-only的Transformer block构建,分为Prelude、Recurrent Block和Coda三个部分。
➡️