小红花·文摘

研究团队复刻了DeepSeek-R1-Zero，发现简化的强化学习训练方法能在少量步骤内达到相似效果，复杂的奖励函数并非必要。Open Reasoner Zero模型在基准测试中表现优异，训练数据和代码已完全开源。

量子位 ·

90后AI大牛张祥雨加入国产大模型独角兽阶跃星辰，他是ResNet论文的作者之一，该论文被引用超过23万次。阶跃星辰估值超过10亿美元，吸引了腾讯俞刚和MSRA段楠等AI人才加入。

量子位 ·