吴翼已正式加盟Meta MSL,成为AI领域的热门人物。他在多智能体系统和深度强化学习方面有显著贡献,发表论文40余篇。加入Meta后,他将参与超级智能系统的研究。
吴翼团队通过使用PPO算法和开源模型,在代码生成任务中超过了闭源大模型AlphaCode 41B。研究团队还探讨了DPO和PPO算法的特点,并提出了提升算法效果的关键点。吴翼团队在强化学习和大模型结合方面的其他研究成果也被介绍。开源工作和论文的出现将降低实验成本和开发难度。
完成下面两步后,将自动完成登录并继续当前操作。