机器之心 ·

一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

MultiOn声称开发了一种名为Agent Q的AI代理，该代理结合了MCTS和DPO算法来控制“草莓哥”账户。它的表现比LLama 3基线高出3.4倍，并在实际任务中达到了95.4%的成功率。然而，有人指责其营销策略。文章提供了Agent Q组件和方法的技术细节。

🎯

关键要点

MultiOn开发了一种名为Agent Q的AI代理，结合了MCTS和DPO算法。
Agent Q的表现比LLama 3基线高出3.4倍，成功率达95.4%。
该项目引发了对其营销策略的质疑，尤其是与'草莓哥'账号的关联。
Agent Q能够执行网页操作，如预定餐厅和航班。
MultiOn与斯坦福大学的研究者联合撰写了Agent Q的相关论文，计划在今年晚些时候向开发者和用户开放。
Agent Q的主要组件包括MCTS、AI自我批评和直接偏好优化（DPO）。
MCTS通过探索不同操作生成数据，平衡探索与利用。
AI自我批评提供反馈，完善智能体的决策过程。
DPO算法通过偏好对微调模型，提高复杂环境中的成功率。
研究者在OpenTable网站上测试Agent Q的表现，成功率从18.6%提升至81.7%。
引入在线搜索功能后，Agent Q的成功率进一步提升至95.4%。

❓

延伸问答

Agent Q的主要功能是什么？

Agent Q能够执行网页操作，如预定餐厅和航班。

Agent Q的成功率有多高？

Agent Q在实际任务中的成功率达到了95.4%。

MultiOn是如何开发Agent Q的？

MultiOn结合了蒙特卡洛树搜索（MCTS）和直接偏好优化（DPO）算法来开发Agent Q。

Agent Q与LLama 3的比较如何？

Agent Q的表现比LLama 3基线高出3.4倍。

Agent Q的技术细节有哪些？

Agent Q的主要组件包括MCTS、AI自我批评和直接偏好优化（DPO）。

为什么有人质疑MultiOn的营销策略？

有人认为MultiOn利用了与'草莓哥'账号的关联进行炒作，甚至称其为无耻的骗子。

🏷️

标签

Agent Q DPO MCTS openai 成功率技术细节智能体

➡️

继续阅读

华为云高校公开课走进中山大学，聚焦智能体时代企业级开发能力建设
7月13日，华为云开发者发展与运营部部长林华鼎受邀走进中山大学深圳校区电子与通信工程学院，为30名学生带来《AI编程实战：重构学习生活，洞见企业级开发》专...
酷哇科技亮相WAIC 2026，解密行业首个双层智能体世界模型
机器人真正需要的世界模型，并不是单一物理世界模型，而是物理世界模型与人类社会世界模型的统一
OpenAI says it accidentally hacked Hugging Face with a new AI system
OpenAI says its AI models mistakenly breached open-source AI platform Hugging...
OpenAI and Hugging Face partner to address security incident during model evaluation
OpenAI and Hugging Face share early findings from a security incident during ...
编码软件OpenCode封禁8,000个账号使用黑卡订阅转售API再申请退款
#人工智能 AI 编码软件 OpenCode 封禁 8,000 个违法薅羊毛账号，使用黑卡订阅再转售 API 给下游中转站。8,000 个账号理论成本为每...
MetaOptics拟于美国亚利桑那大学部署DLW系统
（全球TMT 2026年07月22日讯）MetaOptics Ltd（Catalist：9MT）宣布，已签订协 […]