本研究提出了一种新的跨视图目标对齐框架ROCKET-2,旨在解决不同摄像头视角下为智能体指定目标的问题。通过引入跨视图一致性损失和目标可见性损失,该框架提升了智能体的空间推理能力。在Minecraft中训练后,推理效率提高了3至6倍,为人工智能与人类的更好交互奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。