DeepSeek 发布一年了,你真的会用吗?

📝

内容提要

复杂的推理过程动不动几十个步骤,要让人类专家给每一个步骤都打分,这数据标注的成本高到离谱,导致训练“奖励模型”的成本太高。但如果你让他去搞文学创作、写个段子,他那套“死磕逻辑”的方法可能就会显得有点“直男”,甚至会用力过猛,把简单问题复杂化。甚至,它学会了自我反思,你会看到它在输出里写:“哎呀,这步好像算错了,我重新推导一下...”今天,咱们不聊晦涩的参数,就带你把 DeepSeek...

🏷️

标签

➡️

继续阅读