田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

机器之心 ·

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

Meta FAIR与加州大学伯克利分校研究团队提出了新基准ColBench，并开发了多轮强化学习算法SWEET-RL，旨在提升大型语言模型在复杂协作任务中的表现。该算法通过直接学习每轮的优势函数，显著提高了智能体在编程和设计任务中的成功率。

🎯

关键要点

Meta FAIR与加州大学伯克利分校提出了新基准ColBench，旨在提升大型语言模型在复杂协作任务中的表现。
SWEET-RL是一种多轮强化学习算法，通过直接学习每轮的优势函数，提高了智能体在编程和设计任务中的成功率。
ColBench基准设计原则包括任务复杂性、降低开销和任务多样性，以支持智能体的推理和泛化能力。
后端编程任务中，智能体与人类模拟器协作编写Python函数，需推理并请求具体说明。
前端设计任务中，智能体与人类模拟器协作设计网页，需编写HTML代码并根据反馈进行调整。
SWEET-RL采用两阶段训练方法，第一阶段学习各个轮次的优势函数，第二阶段通过优势优化智能体。
实验结果显示，SWEET-RL在ColBench上显著提高了LLM智能体的成功率，尤其是在多轮交互中。
与其他算法比较，SWEET-RL在后端编程和前端设计任务上均表现出显著提升，成功率分别提高6%和5.4%。
SWEET-RL模型在性能上与GPT-4o和o1-mini等SOTA模型相当，展示了其有效性。

❓

延伸问答

SWEET-RL算法的主要创新点是什么？

SWEET-RL算法通过直接学习每轮的优势函数，显著提高了智能体在复杂协作任务中的成功率。

ColBench基准的设计原则有哪些？

ColBench基准的设计原则包括任务复杂性、降低开销和任务多样性，以支持智能体的推理和泛化能力。

SWEET-RL在后端编程任务中的表现如何？

在后端编程任务中，SWEET-RL的成功率提高了6%。

SWEET-RL的训练过程是怎样的？

SWEET-RL采用两阶段训练方法，第一阶段学习各个轮次的优势函数，第二阶段通过优势优化智能体。

SWEET-RL与其他算法相比有什么优势？

SWEET-RL在后端编程和前端设计任务上均表现出显著提升，成功率分别提高6%和5.4%。

在前端设计任务中，SWEET-RL的成功率提高了多少？

在前端设计任务中，SWEET-RL的成功率提高了5.4%。

🏷️

继续阅读

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...