AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现 浙大校友复刻DeepSeek的长思维链推理,提出新训练方法Intuitor,通过优化模型自信度实现复杂推理,无需外部奖励信号。实验表明,该模型在数学和代码任务中表现优异,提升了推理能力和生成结构化答案的能力。 DeepSeek Intuitor ai 推理 数学 模型