InfoQ ·

SIMA 2利用Gemini和自我改进在未见的3D和真实感世界中实现泛化

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Google DeepMind推出SIMA 2，这是一种基于Gemini模型的通用智能体，能够在多个3D虚拟环境中理解和行动。与前版本相比，SIMA 2具备制定多步计划和与用户讨论策略的能力。研究显示，该智能体在游戏测试中接近人类表现，并能在新环境中自我改进。SIMA 2的应用潜力包括机器人领域，但仍面临复杂任务的挑战。

🎯

关键要点

Google DeepMind推出SIMA 2，是一种基于Gemini模型的通用智能体，能够在多个3D虚拟环境中理解和行动。
SIMA 2相比于前版本具备制定多步计划和与用户讨论策略的能力。
研究显示，SIMA 2在游戏测试中接近人类表现，并能在新环境中自我改进。
该智能体采用自我改进循环，通过Gemini提供初始任务和奖励估计，独立改进失败的任务。
SIMA 2在全新环境中进行性能评估，测试其泛化能力。
SIMA 2架构使用Gemini Flash-Lite模型，结合游戏和Gemini预训练数据进行训练。
研究人员将SIMA 2视为超越简单指令执行的更强大、协作的智能体，能够在3D虚拟世界中进行推理和目标导向的行动。
技术社区成员讨论了SIMA 2在游戏之外的潜在应用，尤其是在机器人训练方面。
SIMA 2仍面临复杂任务的挑战，包括长时间的多步推理和目标验证。
DeepMind将SIMA 2作为有限的研究预览发布，早期访问仅提供给少数学者和游戏开发者。

🔎

延伸解读

SIMA 2的自我改进能力

SIMA 2通过自我改进循环，能够独立提升在任务中的表现。这种能力使其在面对新环境时，能够快速适应并优化策略，减少对人类干预的依赖。这一特性在机器人训练中尤为重要，因为它可以在真实世界中进行高效的学习和调整。

应用潜力与挑战

尽管SIMA 2在游戏测试中表现接近人类，但在复杂任务上仍面临挑战，如长时间的多步推理和目标验证。这意味着在实际应用中，尤其是机器人领域，开发者需要关注其在复杂环境下的表现，以确保其可靠性和有效性。

技术架构的创新

SIMA 2的架构结合了Gemini Flash-Lite模型和多样化的训练数据，这一创新为其提供了强大的视觉理解和对话能力。这种技术的融合不仅提升了智能体的表现，也为未来的AI系统设计提供了新的思路，尤其是在需要多模态交互的应用场景中。

❓

延伸问答

SIMA 2的主要功能是什么？

SIMA 2是一种通用智能体，能够在多个3D虚拟环境中理解和行动，具备制定多步计划和与用户讨论策略的能力。

SIMA 2如何实现自我改进？

SIMA 2通过自我改进循环，利用Gemini提供的初始任务和奖励估计，独立改进失败的任务。

SIMA 2在游戏测试中的表现如何？

研究显示，SIMA 2在游戏测试中接近人类表现，并能在新环境中自我改进。

SIMA 2的应用潜力有哪些？

SIMA 2的应用潜力包括机器人领域，尤其是在训练机器人方面。

SIMA 2面临哪些挑战？

SIMA 2仍面临复杂任务的挑战，包括长时间的多步推理和目标验证。

SIMA 2与前版本相比有什么改进？

SIMA 2相比于前版本具备制定多步计划和与用户讨论策略的能力，超越了简单指令执行。

🏷️