小红花·文摘 - 小红花技术领袖俱乐部

字节实习生禹棋赢负责RL核心算法，参与开发新算法DAPO，提升大语言模型性能。他凭借好奇心和执行力在团队中脱颖而出，展现年轻人在AI领域的重要性。

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

量子位 ·

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

机器之心 ·