OpenAI推出的GPT-5.3-Codex模型是其最强大的编码模型,具备编码和推理能力,速度提升25%。该模型能够构建复杂的游戏和应用,理解用户意图,并处理网络安全任务。尽管在编码基准测试中表现优异,OpenAI强调其在实际应用中的进步,标志着向通用智能体的迈进。
Google DeepMind推出SIMA 2,这是一种基于Gemini模型的通用智能体,能够在多个3D虚拟环境中理解和行动。与前版本相比,SIMA 2具备制定多步计划和与用户讨论策略的能力。研究显示,该智能体在游戏测试中接近人类表现,并能在新环境中自我改进。SIMA 2的应用潜力包括机器人领域,但仍面临复杂任务的挑战。
AI 开发者面临的挑战在于通用智能体在实际业务中的表现不佳,原因是业务需要专门技能而非通用知识。Anthropic 提出的“技能”架构强调将经验转化为标准化操作手册和工具脚本,以提升智能体的应用能力,从而更好地满足企业需求,解决实际问题,创造商业价值。
国产AI产品Manus被誉为全球首款通用智能体,能够独立完成复杂任务,GAIA评分超越OpenAI。用户反响热烈,邀请码价格飙升。Manus可执行简历筛选、房产搜索和股票分析等多项功能,团队由90后创业者肖弘领导。
构建通用智能体是人工智能的长期目标。本文介绍了AgentGym框架,提供多样环境和任务,支持智能体实时探索。AgentEvol方法研究智能体自我演进,实验显示演进智能体能达到先进模型的效果。
本研究提出JOWA模型,解决离线强化学习中构建通用智能体的问题。通过在多个Atari游戏上预训练,模型能学习通用表示和决策能力。实验显示,JOWA在仅用10%离线数据时,性能超越现有基线,并在新游戏上表现出高效迁移和优越泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。