谷歌推出了Gemini Robotics-ER 1.6,这是一个升级的机器人模型,具备更精准的物理环境理解能力,增强了空间逻辑和多视角理解,提升了自主性,尤其在视觉理解、任务规划和成功检测方面表现优异。此外,该模型能够读取复杂仪表,并且是迄今为止最安全的机器人模型,符合安全政策。开发者可通过Gemini API和Google AI Studio访问该模型。
具身智能(Embodied AI)使智能体能够在物理和数字世界中学习与决策,关键技术为世界模型(World Model)。近期研究包括基于视频训练的机器人模型、开源世界模拟器和合成环境生成器,推动智能体在可生成环境中的进化。推荐的六篇论文展示了智能体在复杂任务中的应用与优化。
RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。
Gemini Robotics On-Device是一个高效的本地机器人模型,具备通用灵活性和快速任务适应能力,能够独立于网络运行,适用于延迟敏感的应用,执行复杂的多步骤指令。开发者可通过SDK进行模型评估和适应,支持快速调整以满足特定需求。该模型在多种测试场景中表现出色,能够完成如折叠衣物等精细任务,推动机器人技术的创新与发展。
Gemini Robotics On-Device是一个高效的本地机器人模型,具备通用灵活性和快速任务适应能力。该模型独立于网络运行,适用于延迟敏感的应用,能够执行复杂的多步骤指令。开发者可通过SDK轻松评估和调整模型,以满足特定需求。
完成下面两步后,将自动完成登录并继续当前操作。