量子位 ·

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

字节实习生禹棋赢负责RL核心算法，参与开发新算法DAPO，提升大语言模型性能。他凭借好奇心和执行力在团队中脱颖而出，展现年轻人在AI领域的重要性。

🎯

关键要点

字节实习生禹棋赢负责RL核心算法，参与开发新算法DAPO，提升大语言模型性能。
DAPO算法在AIME 2024基准上表现优于DeepSeek-R1-Zero-Qwen，且训练步数减少50%。
禹棋赢是字节大模型团队唯一的实习生，负责RL方向的研究。
他在字节的Top Seed人才计划中表现突出，展现出强烈的好奇心和执行力。
禹棋赢通过RL结合CoT提升模型的逻辑准确性和泛化能力。
他在探索过程中发现了模型的新能力，推动了RL技术的发展。
字节对年轻人的重用反映了AI领域对解决前沿问题能力的追求。
经验不再是唯一筹码，好奇心与执行力成为年轻人在AI领域的通行证。
字节将继续推进Top Seed项目，为年轻人提供探索空间和资源支持。

❓

延伸问答

禹棋赢在字节的实习生涯中负责什么核心算法？

禹棋赢负责RL核心算法，参与开发新算法DAPO。

DAPO算法的优势是什么？

DAPO算法在AIME 2024基准上表现优于DeepSeek-R1-Zero-Qwen，且训练步数减少50%。

字节的Top Seed人才计划有什么特点？

Top Seed人才计划为年轻人提供探索空间和资源支持，鼓励创新和研究。

禹棋赢如何提升模型的逻辑准确性？

他通过将RL与CoT结合，提升了模型的逻辑准确性和泛化能力。

字节对年轻人的重用反映了什么趋势？

这反映了AI领域对解决前沿问题能力的追求，经验不再是唯一筹码。

禹棋赢在字节的工作经历有什么特别之处？

他是字节大模型团队唯一的实习生，负责RL方向的研究，展现出强烈的好奇心和执行力。

🏷️

标签

AI领域 DAPO RL算法 llm 字节实习生算法

➡️

继续阅读

谷歌OKF开放知识格式：卡帕西LLM Wiki有了标准！
谷歌发布的开放知识格式（OKF）通过简单的Markdown和YAML结构，解决信息碎片化问题。该格式强调极少的强制规定、生产与消费分离，且供应商中立。文章...
如何选择即时通讯出海方案?
选出海IM方案的关键在于量化需求和评估候选方案。首先明确用户分布、消息形态、体量与节奏、合规要求及预算。然后通过六个维度打分对比方案，最后进行真实业务测试...
谷歌DeepMind最新论文揭秘AI终局：从AGI到ASI，有4条路和6道关
过去十年，人工智能（AI）迅速发展，通用人工智能（AGI）成为研究目标。探讨AGI后AI是否会演进至超级人工智能（ASI），提出四条可能路径：扩展计算、算...
是否自建即时通讯出海更划算?
在出海即时通讯(IM)项目中，自建与外采的选择应基于真实业务参数。需量化MAU、消息形态、市场分布等六项数据。自建成本高且固定，边际成本低；外采则相反。评...
用安卓模拟器开通 giffgaff eSIM 的记录
引言 6 月 14 日晚上，看到几条推文和一个 YouTube 教程后，我跟着折腾了一圈，最后用电脑上的安卓模拟器申请到了英国 giffgaff eSIM...
哪种即时通讯出海架构更稳定?
跨洋即时通讯(IM)的稳定性依赖于五个关键指标：登录成功率、消息送达率、端到端延迟、断连恢复时间和故障可用性。主流架构包括单中心、区域主备和多区域多活，选...