AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现

浙大校友复刻DeepSeek的长思维链推理，提出新训练方法Intuitor，通过优化模型自信度实现复杂推理，无需外部奖励信号。实验表明，该模型在数学和代码任务中表现优异，提升了推理能力和生成结构化答案的能力。

DeepSeek Intuitor ai 推理数学模型

原文中文，约2800字，阅读约需7分钟。发表于：。