机器之心 ·

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

吴翼团队通过使用PPO算法和开源模型，在代码生成任务中超过了闭源大模型AlphaCode 41B。研究团队还探讨了DPO和PPO算法的特点，并提出了提升算法效果的关键点。吴翼团队在强化学习和大模型结合方面的其他研究成果也被介绍。开源工作和论文的出现将降低实验成本和开发难度。

🎯

关键要点

吴翼团队使用PPO算法和开源模型在代码生成任务中超过了闭源大模型AlphaCode 41B。
研究团队探讨了DPO和PPO算法的特点，并提出了提升算法效果的关键点。
大模型对齐技术是实现超级智能的关键技术挑战。
RLHF是对齐技术中最重要的算法框架，强调人类反馈的重要性。
PPO算法流程复杂且算力消耗大，学术界普遍使用更简化的对齐算法。
吴翼团队的研究首次采用PPO算法及开源模型在代码生成任务中取得突破。
DPO算法的局限性在于使用离线数据训练，可能导致不可预料的回复。
提升DPO算法能力的关键技术包括额外的SFT训练和使用在线采样数据。
PPO算法的关键点包括使用大批大小、优势归一化和指数移动平均更新。
吴翼团队在对话任务和代码生成任务上达到了SOTA效果。
高效率的训练系统是实现大模型对齐的必要条件，团队有长期积累。
吴翼团队结合强化学习与大模型实现了多种复杂的LLM Agent。
开源工作和论文将降低实验成本和开发难度，促进技术发展。

❓

延伸问答

吴翼团队在代码生成任务中使用了哪种算法超过了AlphaCode 41B？

吴翼团队使用PPO算法和开源模型在代码生成任务中超过了闭源大模型AlphaCode 41B。

DPO算法的主要局限性是什么？

DPO算法的局限性在于使用离线数据训练，可能导致不可预料的回复。

PPO算法在训练中有哪些关键点？

PPO算法的关键点包括使用大批大小、优势归一化和指数移动平均更新。

吴翼团队的研究如何促进大模型对齐技术的发展？

吴翼团队的开源工作和论文将降低实验成本和开发难度，促进技术发展。

在ICML 2024上，吴翼团队的研究成果将如何展示？

吴翼团队的研究成果将在ICML 2024的第一个口头报告会上进行公开汇报。

如何提升DPO算法的效果？

提升DPO算法能力的关键技术包括额外的SFT训练和使用在线采样数据。

🏷️

标签

AlphaCode 41B PPO算法 llm 吴翼团队大模型对齐技术强化学习清华

➡️

继续阅读

超越π0，中国团队用1B参数模型登顶具身智能榜单
具身智能正在从「参数竞赛」进入「架构竞赛」。
Ramag v0.0.1：用 Rust + GPUI 做了一个本地优先的开发者桌面工作台
这是一个用 Rust + GPUI 构建的原生开发者桌面工作台，一套应用直接覆盖三条高频工作流：查数据库 ↔ 管 Git 工作区 ↔ 找回并粘贴上下文 ...
使用 lm-evaluation-harness 评估 Amazon Bedrock 模型：以 HumanEval 为例
开发者在选择LLM时，需要在准确性、延迟和成本之间做出权衡。本文在 Amazon Bedrock 上对GPT-5.6 Sol、Claude Opus 4....
基于 Amazon SageMaker AI 部署 Chronos-Bolt 实现零样本时序预测
时间序列预测在零售库存管理、能源负荷调度、金融风险评估、运维容量规划等场景中扮演着关键角色。传统方案如 DeepAR 等深度学习模型精度较高，但面临训练周...
通过 Microsoft Entra ID 集成 IAM Identity Center 实现对 Amazon Quick 的统一身份认证
企业普遍以 Microsoft Entra ID（原 Azure AD）作为身份底座。本文介绍以 Entra ID 为 IdP、AWS IAM Ident...
构建 AI 驱动的 EKS 集群健康诊断 SaaS 平台 – 从静态规则到 MCP Agent 自主分析
本文介绍了一个面向 Amazon EKS 用户的 AI 驱动集群健康诊断 SaaS 平台，该平台通过"确定性规则 + AI 关联分析 + MCP ...