字节实习生禹棋赢负责RL核心算法,参与开发新算法DAPO,提升大语言模型性能。他凭借好奇心和执行力在团队中脱颖而出,展现年轻人在AI领域的重要性。
清华 AIR 和字节的 SIA Lab 发布了开源强化学习系统 DAPO,显著提升了大语言模型的训练效率。与 GRPO 相比,DAPO 在 AIME 2024 基准测试中表现更佳,训练步数减少了50%。该系统通过动态采样和奖励建模等新技术,解决了熵崩溃等问题,推动了模型推理能力的发展。
完成下面两步后,将自动完成登录并继续当前操作。