小红花·文摘 - 小红花技术领袖俱乐部

从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

机器之心 ·

清华与CMU团队的研究表明，长思维链（CoT）推理能力可以通过强化学习（RL）实现，监督微调（SFT）并非必需，但能提升效率。研究强调奖励函数对CoT扩展的重要性，并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

量子位 ·

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

机器之心 ·

引入长思维链！微信基于阿里千问大模型搞出个翻译版o1

引入长思维链！微信基于阿里千问大模型搞出个翻译版o1

机器之心 ·