仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心 机器之心 ·

阅读原文