量子位 ·

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

新开源推理模型Huginn采用与DeepSeek不同的架构，直接在高维潜空间中推理，抛弃长思维链。该模型自适应计算时间，能够捕捉难以用语言表达的推理类型，且无需专门训练数据和小上下文窗口。研究团队在超算上使用800B tokens数据进行预训练，表现出与传统大模型相当的能力。

🎯

🔎

Huginn模型通过在高维潜空间中进行推理，抛弃了传统的长思维链。这种方法使得模型能够捕捉到一些难以用语言表达的推理类型，展现出更灵活的思考方式。尤其在处理复杂问题时，模型的表现可能优于依赖语言的传统方法。

Huginn模型的计算量相当于传统的32B模型，但其参数仅为3.5B。这意味着在相对较低的资源消耗下，Huginn仍能达到与大型模型相当的性能，适合资源有限的研究团队或开发者使用。

研究团队通过可视化Huginn在潜在空间中的推理轨迹，发现关键token的隐状态形成复杂的轨道。这种现象表明模型在处理重要信息时，能够进行更深层次的思考，值得关注其在实际应用中的表现。

❓

Huginn模型直接在高维潜空间中推理，抛弃了长思维链和人类语言，而DeepSeek则采用不同的推理架构。

Huginn模型在800B tokens的数据上进行了预训练。

Huginn模型的计算量相当于传统的32B模型，但其参数仅为3.5B。

Huginn模型的推理轨迹可视化显示，关键token的隐状态形成复杂的轨道，表明模型在潜空间中独立学习推理。

Huginn模型不需要任何专门的训练数据，可以在很小的上下文窗口下工作。

Huginn模型围绕Decoder-only的Transformer block构建，分为Prelude、Recurrent Block和Coda三个部分。

🏷️