研究团队复刻了DeepSeek-R1-Zero,发现简化的强化学习训练方法能在少量步骤内达到相似效果,复杂的奖励函数并非必要。Open Reasoner Zero模型在基准测试中表现优异,训练数据和代码已完全开源。
90后AI大牛张祥雨加入国产大模型独角兽阶跃星辰,他是ResNet论文的作者之一,该论文被引用超过23万次。阶跃星辰估值超过10亿美元,吸引了腾讯俞刚和MSRA段楠等AI人才加入。
完成下面两步后,将自动完成登录并继续当前操作。